Ozr2024-04-13 19:21:40
为什么一个token出现在了all class就MI=0?
回答(1)
爱吃草莓的葡萄2024-04-15 15:18:56
同学你好。MI是用来衡量两个随机变量之间的相互依赖性的量。具体来说,MI量化了知道一个变量的值如何减少对另一个变量值的不确定性。
如果一个特定的token(比如一个单词或词汇)在所有类别的文本中都有出现,那么它可能不具有区分不同类别的信息价值。这是因为这个token在类别间的分布是均匀的,它不会提供任何有助于区分一个类别与另一个类别的额外信息。换句话说,这个token的出现并不减少对文本所属类别的预测的不确定性。
因此,当这个token出现在所有类别中时,它与类别标签之间的MI接近于零,因为它们几乎不相关。在文本分类任务中,这样的token可能被认为是没有信息量的,因为它不提供任何有助于分类的信号。在特征选择过程中,通常会排除这类MI较低的token,以便更好地识别和利用那些更具区分度的特征。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

