天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

18****212024-08-13 18:07:35

老师在另一题讲mutual information的时候,还有这题讲df的时候都说的是,出现频次越低越重要,但是在这题的第一题又说了出现频次最高和最低的都是废词。请问怎么区分这两种情况?

查看试题

回答(1)

最佳

爱吃草莓的葡萄2024-08-14 11:48:53

同学你好。本题并没有涉及MI,与同学问的相关的是第一题,涉及的是TF。不同的指标有不同的含义,需要理解指标的含义才能进行判断。

TF是词频,是词出现的频率。频率过高与过低都不太好。例如the、is等,它们在文章中出现的频率很高,但是这些词没有意义。过低说明不重要,重要的东西不会出现很少的次数。因此,我们看的是出现频率位于中间的词。

MI是互信息,是衡量一个标记对一类文本贡献了多少信息。如果标记在所有文本类中的分布相同,则互信息值将等于 0。MI 值接近 1,意味着任何一个类中的标记往往只在该特定文本类中更频繁地出现,例如比赛、得分等词出现在与运动相关的文章中的频率会更高,出现在政治、旅游相关文章中的频率会更低。具有最高 MI 值的标记与其相应的文本类名称有密切的关系。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录