RL2022-09-26 17:10:05
DF和Chi-squared有什么区别?互信息的1,只出现了一次,不就是低频次应该剔除吗?
回答(1)
Essie2022-09-27 14:41:26
你好,DF是词频,是出现出现了某个词的句子的数量除以所有的句子的数量,是根据句子的数量来算的。
chi-square是卡方分布检验,目的是找到单词和文章含义的独立性,较低的卡方检验值,说明单词和文章两者的相关性较低,或者说单词在文章中出现的频率较低。
Mutual information是互信息,衡量token的指向性。取值范围在0-1之间,如果某个词的指向性较低,MI值越低接近于0,说明这个词的指向性很低。如果某个词的指向性很高,那么MI就会接近于1。MI的取值不等于该词出现的次数。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

