努同学2023-07-09 18:09:45
我不是很懂X的取值偏离整体的实质意义,X作为自变量,相当于是主观的输入数据,不合适把它remove就行了。而且比如我可以主动设置一个区间,0到100,作为X的取值区间,都是人为可以设定的,那这样怎么还会出现有偏离这个区间的情况呢?
回答(1)
最佳
爱吃草莓的葡萄2023-07-10 14:49:57
同学你好。这里有几个误区:
首先自变量x不是主观的数据,自变量数据第一是客观存在的,第二在回归假设中有一条是自变量不是随机的。如果自变量是主观数据,那你通过模型也会得出主观的y,这有什么意义;
其次,数据客观存在,但也存在极端异常值。例如2022月度制冷空调售量,会不会在这十二个数据中存在极端数据,换句话说在一向平稳的销量中有没有可能出现销量特别高或特别低的月度,当然会有,夏天会明显增加冬季明显降低,每年都是如此是吧,这就是后面会学到的季节性影响。那么现在但看这十二个数据,我并不知道有季节性这个东西,那你觉得特别高/低的数据是不是应该剔除,以免影响回归的结果。
同样的道理,出现极端值,偏离趋势,它会倾斜回归线,造成较大的误差,那么应该去除极端值,避免影响回归线。同学你也说了设置区间,那设置多少合适,另外你设置这个区间就有主观数据操纵,那结果还会准吗。
- 评论(0)
- 追问(1)
- 追问
-
老师我有尝试去理解,但还有一个问题,比如说我想看年龄AGE对收入SALARY的影响,那么一个简单的regression model 就是 Salary=intercept+b*AGE+ERROR,那对于自变量AGE来讲,0到100才是一个有意义的区间,1000明显是一个outlier,这种情况下人为设一个区间是不是更有经济意义。
评论
0/1000
追答
0/1000
+上传图片

