天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

Venus2024-11-03 00:09:39

Q2,老师上课的时候讲的,IDF加了log就是为了剔除sample size带来的影响,与statement 3 的说法矛盾,为什么这里选3是对的

查看试题

回答(1)

爱吃草莓的葡萄2024-11-06 13:25:51

同学你好。TF-IDF值因数据集中的文档数量而异,因此,应用于只有几个文档的数据集时,模型性能可能会有所不同。此处与同学提到的提出sample size讲的不是一回事,课程中讲到的是DF过大,说明很频繁出现,可能没有那么重要(比如停顿词或者常见的)。DF适度低,说明出现的可能是比较重要的。

这个形式就是DF高——不重要,DF低——重要。形式相反,因此取个倒数,这就变成了低——不重要,高——重要。之所以取对数,这是为了防止指标偏向较长的文件,因为较长的文件中字数比较短的文件多,出现的次数也会较多。

  • 评论(0
  • 追问(2
评论
追问
这里所说的文件,是指什么,总句子数还是总词数还是什么?与database有什么区别
追答
同学你好。这里说的文件是句子数的意思,DF为包含该单词的文档数量除以文档总数。database是数据集(合)。

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录