徐同学2023-05-01 18:16:04
老师11题在EDA过程中,在特征选择时 ,是不是应该关注high chi-square和high mutual information values?
回答(1)
爱吃草莓的葡萄2023-05-03 22:24:59
同学你好。十一题考查的是三个方法用于什么地方。题目说的是担心噪音特征,即担心无用特征,选用frequency 是可以解决的。
卡方是用于检验两个事件是不是独立的。具有最高卡方检验统计值的token在与特定类别相关的文本中出现得更频繁,因此由于具有更高的歧视性潜力,可以选择用作ML模型训练的特征;
互信息是特征与标签类相互依赖程度的度量。特征与标签类的互信息越大,特征与标签“相关性越强”,这个特征更有可能属于此类标签。
卡方与互信息这两个无法解决题目提出的担忧,因此选择C选项。
同学如果回答解决了您的疑惑,请给回答给予采纳。祝早日持证!
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

