我不是很懂X的取值偏离整体的实质意义，X作为自变量，相当于是主观的输入数据，不合适把它remove就行了。而且比如我可以主动设置一个区间，0到100，作为X的取值区间，都是人为可以设定的，那这样怎么还会出现有偏离这个区间的情况呢？



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>CFA二级

努同学2023-07-09 18:09:45

我不是很懂X的取值偏离整体的实质意义，X作为自变量，相当于是主观的输入数据，不合适把它remove就行了。而且比如我可以主动设置一个区间，0到100，作为X的取值区间，都是人为可以设定的，那这样怎么还会出现有偏离这个区间的情况呢？

史纲

回答（1）

最佳

爱吃草莓的葡萄2023-07-10 14:49:57

同学你好。这里有几个误区：

首先自变量x不是主观的数据，自变量数据第一是客观存在的，第二在回归假设中有一条是自变量不是随机的。如果自变量是主观数据，那你通过模型也会得出主观的y，这有什么意义；

其次，数据客观存在，但也存在极端异常值。例如2022月度制冷空调售量，会不会在这十二个数据中存在极端数据，换句话说在一向平稳的销量中有没有可能出现销量特别高或特别低的月度，当然会有，夏天会明显增加冬季明显降低，每年都是如此是吧，这就是后面会学到的季节性影响。那么现在但看这十二个数据，我并不知道有季节性这个东西，那你觉得特别高/低的数据是不是应该剔除，以免影响回归的结果。

同样的道理，出现极端值，偏离趋势，它会倾斜回归线，造成较大的误差，那么应该去除极端值，避免影响回归线。同学你也说了设置区间，那设置多少合适，另外你设置这个区间就有主观数据操纵，那结果还会准吗。

评论（0）
追问（1）

追问

老师我有尝试去理解，但还有一个问题，比如说我想看年龄AGE对收入SALARY的影响，那么一个简单的regression model 就是 Salary=intercept+b*AGE+ERROR，那对于自变量AGE来讲，0到100才是一个有意义的区间，1000明显是一个outlier，这种情况下人为设一个区间是不是更有经济意义。