192****44722024-08-03 10:13:38
这里的data snooping结论来的离谱,文中只是描述根据数据做推断,没说反复跑模型,得到想要的结果才做推断呀?根据数据推断不是很合理的事情吗。还有testing prior inference是什么意思?它和根据数据做推断不是一个意思吗?
回答(1)
爱吃草莓的葡萄2024-08-06 11:32:26
同学你好。data snooping是数据挖掘。例如给你两组数据,可能之间没有关系,可能就有杠精就会强行在这两种数据中找关系,这就是数据挖掘,强行找关系。
信息中说了,在得到统计结果后进行推断分析,这潜在的存在数据挖掘偏差。你会从得到的结果中找出各种各样的关系,但是你找的关系有多少是有意义的,这是不是在挖掘数据。
- 评论(0)
- 追问(6)
- 追问
-
我没有从题目中理解到老师说的解释。Make an inference after looking at statistical results理解起来是正常的数据分析的流程,比如说:给一段时间的股市做了回归,从统计学角度看哪些factors contributed to growth/loss,这很正常呀,怎么看出来他有强行解释不一定存在的东西呢?
老师没回答Testing a prior inference是什么意思,这和上面的行为有什么区别吗?
- 追答
-
同学你好。给出统计结果再进行推断分析,可能存在强行找关系,即过度数据挖掘。例如公司业绩好,你会认为是产品质量好得到消费者认可等,也会认为与老板学历、老板性别等有关使得公司业绩好。你总是能够找出各种各样理由来解释公司业绩好,这就是数据挖掘,给你一个数据,你拼命的从中挖掘各种信息,这些信息其中一大半可能都是没有显著性影响的,是不是可能存在过度挖掘数据的现象。
在事前可以进行各种推断,然后进行统计分析,对之前的推断进行判断,这就是后面(testing~)说的意思。
- 追问
-
那么此处正确的做法应该是什么呢?
- 追答
-
同学你好。通常是先做推断,然后在进行检验。如果先进行分析得到结果,然后再进行推断的话,容易在已经得到的统计结果中强行找联系。
- 追问
-
原来是这样,是不是类似假设检验,第一步一定要先做假设的意思?然后想问一下,那么如果是见到“先进行分析得到结果,然后再进行推断”这样的表述,一定是错误的,有data snooping的问题的吗?还是有特例?
- 追答
-
同学你好。首先具体问题具体分析,如果是给到结果再进行推断分析,极有可能出现数据挖掘问题。其次不是非对即错的概念,这是两种分析方法,偏差也不是错的概念。行为金融学中有很多行为偏差,人就都是错的吗,显然不对。有偏差我们可以认识它并且克服或者改变它,避免没有考虑或者陷入偏差中。
评论
0/1000
追答
0/1000
+上传图片

