18****212024-08-13 18:07:35
老师在另一题讲mutual information的时候,还有这题讲df的时候都说的是,出现频次越低越重要,但是在这题的第一题又说了出现频次最高和最低的都是废词。请问怎么区分这两种情况?
查看试题回答(1)
最佳
爱吃草莓的葡萄2024-08-14 11:48:53
同学你好。本题并没有涉及MI,与同学问的相关的是第一题,涉及的是TF。不同的指标有不同的含义,需要理解指标的含义才能进行判断。
TF是词频,是词出现的频率。频率过高与过低都不太好。例如the、is等,它们在文章中出现的频率很高,但是这些词没有意义。过低说明不重要,重要的东西不会出现很少的次数。因此,我们看的是出现频率位于中间的词。
MI是互信息,是衡量一个标记对一类文本贡献了多少信息。如果标记在所有文本类中的分布相同,则互信息值将等于 0。MI 值接近 1,意味着任何一个类中的标记往往只在该特定文本类中更频繁地出现,例如比赛、得分等词出现在与运动相关的文章中的频率会更高,出现在政治、旅游相关文章中的频率会更低。具有最高 MI 值的标记与其相应的文本类名称有密切的关系。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片
