张同学2026-06-10 19:42:32
这也太抽象了,之前说的是要剔除高频和低频词,接下来又说低频词互信息是1,有指向性,那低频词到底剔除不剔除?
回答(1)
Vincent2026-06-12 09:25:05
你好
在文本分析中,是否剔除低频词,取决于分析目标。你提到的两种说法并不矛盾,它们适用于不同的任务。
在标准机器学习(ML)文本分类任务(如情感分析、主题分类)中,目的是用词来预测类别。这时,太高频和太低频的词通常都会被剔除。
但特殊情况下“低频词”又有用,例如:
1)主题建模:想找出每类文档的“专属词”。
2)特定主题的精准分类(如区分“垃圾邮件”和“正常邮件”):某个只在垃圾邮件中出现一次的怪词(如特定乱码),可能是一个非常强的分类信号。
互信息(MI)可以衡量一个词与某个类别之间的关联强度。如果一个词只在某一个类别中出现,且只出现一次。它跟该类别的关联是完美关联(PMI=1)。这意味着这个词具有极强的区分指示性。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

