Venus2024-11-03 00:09:39
Q2,老师上课的时候讲的,IDF加了log就是为了剔除sample size带来的影响,与statement 3 的说法矛盾,为什么这里选3是对的
查看试题回答(1)
爱吃草莓的葡萄2024-11-06 13:25:51
同学你好。TF-IDF值因数据集中的文档数量而异,因此,应用于只有几个文档的数据集时,模型性能可能会有所不同。此处与同学提到的提出sample size讲的不是一回事,课程中讲到的是DF过大,说明很频繁出现,可能没有那么重要(比如停顿词或者常见的)。DF适度低,说明出现的可能是比较重要的。
这个形式就是DF高——不重要,DF低——重要。形式相反,因此取个倒数,这就变成了低——不重要,高——重要。之所以取对数,这是为了防止指标偏向较长的文件,因为较长的文件中字数比较短的文件多,出现的次数也会较多。
- 评论(0)
- 追问(2)
- 追问
-
这里所说的文件,是指什么,总句子数还是总词数还是什么?与database有什么区别
- 追答
-
同学你好。这里说的文件是句子数的意思,DF为包含该单词的文档数量除以文档总数。database是数据集(合)。


评论
0/1000
追答
0/1000
+上传图片