天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

RL2022-09-26 17:10:05

DF和Chi-squared有什么区别?互信息的1,只出现了一次,不就是低频次应该剔除吗?

回答(1)

Essie2022-09-27 14:41:26

你好,DF是词频,是出现出现了某个词的句子的数量除以所有的句子的数量,是根据句子的数量来算的。
chi-square是卡方分布检验,目的是找到单词和文章含义的独立性,较低的卡方检验值,说明单词和文章两者的相关性较低,或者说单词在文章中出现的频率较低。
Mutual information是互信息,衡量token的指向性。取值范围在0-1之间,如果某个词的指向性较低,MI值越低接近于0,说明这个词的指向性很低。如果某个词的指向性很高,那么MI就会接近于1。MI的取值不等于该词出现的次数。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录