天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

Ozr2024-04-13 19:21:40

为什么一个token出现在了all class就MI=0?

回答(1)

爱吃草莓的葡萄2024-04-15 15:18:56

同学你好。MI是用来衡量两个随机变量之间的相互依赖性的量。具体来说,MI量化了知道一个变量的值如何减少对另一个变量值的不确定性。
如果一个特定的token(比如一个单词或词汇)在所有类别的文本中都有出现,那么它可能不具有区分不同类别的信息价值。这是因为这个token在类别间的分布是均匀的,它不会提供任何有助于区分一个类别与另一个类别的额外信息。换句话说,这个token的出现并不减少对文本所属类别的预测的不确定性。
因此,当这个token出现在所有类别中时,它与类别标签之间的MI接近于零,因为它们几乎不相关。在文本分类任务中,这样的token可能被认为是没有信息量的,因为它不提供任何有助于分类的信号。在特征选择过程中,通常会排除这类MI较低的token,以便更好地识别和利用那些更具区分度的特征。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录