张同学2026-06-15 21:29:24
Q2没听懂,首先希望老师帮区分一下一共有多少个层级,我的理解是sentence / sentence collection(corpus)/dataset,这么理解对吗? 然后我对不上老师说的一篇文章是哪个层?IDF到底是一篇文章有多少句,还是一个dataset有多少文章
查看试题回答(1)
Vincent2026-06-22 08:48:47
你好
你理解的sentence / sentence collection(corpus)/ dataset方向是对的。就是在TF-IDF语境下,术语是:
单词(Token) → 句子(Sentence / Document) → 语料库(Corpus / 整个Dataset)
文档(document)就是指你用来做分析的基本文本单元,这个单元没有任何固定的“长度”要求。它可以是一本长篇小说,也可以是一封短信,或者,像本题这样的一个句子。
然后,TF (词频):计算在一个句子(Document) 里,“某个词”出现的次数。这就是 the sentence level。
IDF衡量的是在整个dataset(语料库) 中,有多少篇文章(在这里是句子) 包含了这个词。IDF关心的是“这个词有多‘稀有’”,稀有程度是用它在所有文档(这里是句子)中出现的比例来衡量的。
所以:
Statement 1 :错,IDF是 log,不是简单的倒数。
Statement 2 :错,TF是在 sentence level(句子/文档级别)计算,不是 collection level(语料库级别)。
Statement 3 :对。如果数据集(语料库)的文档(句子)数量很少,IDF的计算会变得不稳定、不准确,从而影响最终的模型性能。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片
