icqcu2022-08-06 14:08:54
请老师帮忙解答一下数量里面 非结构化数据中EDA步骤中,TF、DF、CHI-squeare、MUtual information的意思,谢谢
回答(1)
Essie2022-08-06 14:57:44
你好,TF分在语料库级别和在句子级别。TF在语料库级别corpus level,是给定单词在整个语料库中出现的次数除以语料库中的单词总数。在句子级别sentence level则是单词出现在句子中的次数除以所有句子中的单词数,是根据词的数量来算的。
DF是词频,是出现出现了某个词的句子的数量除以所有的句子的数量,是根据句子的数量来算的。
chi-square,卡方分布检验的是单词和文章含义的独立性,较低的卡方检验值,说明单词和文章两者的相关性较低,或者说单词在文章中出现的频率较低。
Mutual information是互信息,衡量token的指向性。比如说有个token是finance,这个单词既会出现在传统金融学文章中,也会出现在fintech文章中,所以只根据这个词我们就不能判定出文章到底写的是传统金融还是fintech,那么finance这个token的就会很低,代表某个词的指向性较低。MI值越低说明这个词的指向性很低。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片