李同学2020-08-22 19:46:26
Q11 请问A、B怎么解释?
回答(1)
Kevin2020-08-24 10:36:57
同学你好!
这里记住结论即可,参考原版书544页,或者如下。
1.Tokens with the highest chi-square test statistic values occur more frequently in texts associated with a particular class and therefore can be selected for use as features for ML model training due to higher discriminatory potential.
2.The mutual information value will be equal to 0 if the token’s distribution in all text classes is the same. The MI value approaches 1 as the token in any one class tends to occur more often in only that particular class of text.
即high chi-square一般是作为features,不是噪声;high MI value说明包含的信息较多,也不是噪声。
- 评论(0)
- 追问(10)
- 追问
-
老师原版书的内容应该有其连贯性吧,我不是太能明白。可否用简单的语言:比如单老师的结论,然后筛选出答案即可,比如您是怎么选出c来的,一个简单的逻辑能说服我就行~
- 追答
-
同学你好!
这里你把这句话当做结论记就行了:“即high chi-square一般是作为features,不是噪声;high MI value说明包含的信息较多,也不是噪声。”没必要花太多时间去理解其中的逻辑,因为考到的可能性也不是很大,时间应该更多花在可能的重点、难点上。
换个角度看直接选正确答案,tokens with very high and low TF values一般也是噪声,可以直接选出C。
- 追问
-
老师 其实这道题我没太明白他想说什么? 我试着人话翻译:在做text形式的数据挖掘的时候,弄好了tokan池,希望把精力集中在高频和低频的词上。C是这个意思吗?不理解。可否用简单的话交代一下C想说一个啥事哩?
- 追答
-
同学你好!
这道题其实问哪些token是噪声,即不包含任何信息。
像特别高频的动词比如is,am,或者特别低频的单词比如穆罕穆德这种,都是不包含信息的词语。因此可能就属于noise,所以是C。
- 追问
-
谢谢老师,其实有时候自己也并不完全知道自己想问的那个点在哪!像这道题,这么说其实就结了,很形象清楚。A,B纠结进去也记不住,是我没“问清楚”,下回有经验了!
- 追答
-
不客气哈 继续加油~
- 追问
-
老师 您说的最后100天的 直播,是8.19 二三级备考计划大揭秘 吗?一男一女讲的?确定一下 ,我记得您说的针对最后3个月的复习规划?方便的话可否链接一下~
- 追答
-
同学你好!
可以直接问班主任要。
- 追问
-
老师,就是二级班主任老师给我说的8.19,但是要确认一下是不是您说的那一个?如果不是 你给我个关键词 我在找找,记得您说是复习计划 没提到揭秘?
- 追答
-
同学你好!
我没提到过100天的复习计划,是不是别的老师说的?建议问问别的老师
评论
0/1000
追答
0/1000
+上传图片

