圆同学2022-07-08 18:16:10
课后题第11题ab两项到底是指什么呢?根本不知道是个啥意思。
回答(1)
Essie2022-07-11 17:18:06
你好,11题的A选项是较低的卡方检验值,卡方分布检验的是单词和文章含义的独立性,较低的卡方检验值,说明单词和文章两者的相关性较低,或者说单词在文章中出现的频率较低。
B选项说的是较低的互信息,比如说有个token是finance,这个单词既会出现在传统金融学文章中,也会出现在fintech文章中,所以只根据这个词我们就不能判定出文章到底写的是传统金融还是fintech,那么finance这个token的就会很低,代表某个词的指向性较低。
- 评论(0)
- 追问(2)
- 追问
-
AB两项都是低相关性,那也得关注呀,应该考虑将这些变量剔除呀,对吧??AB也应该入选呀,对吧??
- 追答
-
低指向性不代表一定要剔除,A和B中描述用的是"low",而C中说的是"very high and very low"只有极高频和极低频的词需要被剔除,综合来看C是最适合的选项。


评论
0/1000
追答
0/1000
+上传图片