天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

张同学2026-06-10 19:42:32

这也太抽象了,之前说的是要剔除高频和低频词,接下来又说低频词互信息是1,有指向性,那低频词到底剔除不剔除?

回答(1)

Vincent2026-06-12 09:25:05

你好

在文本分析中,是否剔除低频词,取决于分析目标。你提到的两种说法并不矛盾,它们适用于不同的任务。

在标准机器学习(ML)文本分类任务(如情感分析、主题分类)中,目的是用词来预测类别。这时,太高频和太低频的词通常都会被剔除。

但特殊情况下“低频词”又有用,例如:
1)主题建模:想找出每类文档的“专属词”。
2)特定主题的精准分类(如区分“垃圾邮件”和“正常邮件”):某个只在垃圾邮件中出现一次的怪词(如特定乱码),可能是一个非常强的分类信号。
互信息(MI)可以衡量一个词与某个类别之间的关联强度。如果一个词只在某一个类别中出现,且只出现一次。它跟该类别的关联是完美关联(PMI=1)。这意味着这个词具有极强的区分指示性。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录