天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

李同学2020-08-22 19:46:26

Q11 请问A、B怎么解释?

回答(1)

Kevin2020-08-24 10:36:57

同学你好!

这里记住结论即可,参考原版书544页,或者如下。

1.Tokens with the highest chi-square test statistic values occur more frequently in texts associated with a particular class and therefore can be selected for use as features for ML model training due to higher discriminatory potential.

2.The mutual information value will be equal to 0 if the token’s distribution in all text classes is the same. The MI value approaches 1 as the token in any one class tends to occur more often in only that particular class of text.

即high chi-square一般是作为features,不是噪声;high MI value说明包含的信息较多,也不是噪声。

  • 评论(0
  • 追问(10
评论
追问
老师原版书的内容应该有其连贯性吧,我不是太能明白。可否用简单的语言:比如单老师的结论,然后筛选出答案即可,比如您是怎么选出c来的,一个简单的逻辑能说服我就行~
追答
同学你好! 这里你把这句话当做结论记就行了:“即high chi-square一般是作为features,不是噪声;high MI value说明包含的信息较多,也不是噪声。”没必要花太多时间去理解其中的逻辑,因为考到的可能性也不是很大,时间应该更多花在可能的重点、难点上。 换个角度看直接选正确答案,tokens with very high and low TF values一般也是噪声,可以直接选出C。
追问
老师 其实这道题我没太明白他想说什么? 我试着人话翻译:在做text形式的数据挖掘的时候,弄好了tokan池,希望把精力集中在高频和低频的词上。C是这个意思吗?不理解。可否用简单的话交代一下C想说一个啥事哩?
追答
同学你好! 这道题其实问哪些token是噪声,即不包含任何信息。 像特别高频的动词比如is,am,或者特别低频的单词比如穆罕穆德这种,都是不包含信息的词语。因此可能就属于noise,所以是C。
追问
谢谢老师,其实有时候自己也并不完全知道自己想问的那个点在哪!像这道题,这么说其实就结了,很形象清楚。A,B纠结进去也记不住,是我没“问清楚”,下回有经验了!
追答
不客气哈 继续加油~
追问
老师 您说的最后100天的 直播,是8.19 二三级备考计划大揭秘 吗?一男一女讲的?确定一下 ,我记得您说的针对最后3个月的复习规划?方便的话可否链接一下~
追答
同学你好! 可以直接问班主任要。
追问
老师,就是二级班主任老师给我说的8.19,但是要确认一下是不是您说的那一个?如果不是 你给我个关键词 我在找找,记得您说是复习计划 没提到揭秘?
追答
同学你好! 我没提到过100天的复习计划,是不是别的老师说的?建议问问别的老师

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录