Q2,老师上课的时候讲的，IDF加了log就是为了剔除sample size带来的影响，与statement 3 的说法矛盾，为什么这里选3是对的



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>CFA二级

Venus2024-11-03 00:09:39

Q2,老师上课的时候讲的，IDF加了log就是为了剔除sample size带来的影响，与statement 3 的说法矛盾，为什么这里选3是对的

查看试题

回答（1）

爱吃草莓的葡萄2024-11-06 13:25:51

同学你好。TF-IDF值因数据集中的文档数量而异，因此，应用于只有几个文档的数据集时，模型性能可能会有所不同。此处与同学提到的提出sample size讲的不是一回事，课程中讲到的是DF过大，说明很频繁出现，可能没有那么重要（比如停顿词或者常见的）。DF适度低，说明出现的可能是比较重要的。

这个形式就是DF高——不重要，DF低——重要。形式相反，因此取个倒数，这就变成了低——不重要，高——重要。之所以取对数，这是为了防止指标偏向较长的文件，因为较长的文件中字数比较短的文件多，出现的次数也会较多。