天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

icqcu2022-08-06 14:08:54

请老师帮忙解答一下数量里面 非结构化数据中EDA步骤中,TF、DF、CHI-squeare、MUtual information的意思,谢谢

回答(1)

Essie2022-08-06 14:57:44

你好,TF分在语料库级别和在句子级别。TF在语料库级别corpus level,是给定单词在整个语料库中出现的次数除以语料库中的单词总数。在句子级别sentence level则是单词出现在句子中的次数除以所有句子中的单词数,是根据词的数量来算的。
DF是词频,是出现出现了某个词的句子的数量除以所有的句子的数量,是根据句子的数量来算的。
chi-square,卡方分布检验的是单词和文章含义的独立性,较低的卡方检验值,说明单词和文章两者的相关性较低,或者说单词在文章中出现的频率较低。
Mutual information是互信息,衡量token的指向性。比如说有个token是finance,这个单词既会出现在传统金融学文章中,也会出现在fintech文章中,所以只根据这个词我们就不能判定出文章到底写的是传统金融还是fintech,那么finance这个token的就会很低,代表某个词的指向性较低。MI值越低说明这个词的指向性很低。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录