天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA问答

张同学2026-06-15 21:29:24

Q2没听懂,首先希望老师帮区分一下一共有多少个层级,我的理解是sentence / sentence collection(corpus)/dataset,这么理解对吗? 然后我对不上老师说的一篇文章是哪个层?IDF到底是一篇文章有多少句,还是一个dataset有多少文章

查看试题

回答(1)

Vincent2026-06-22 08:48:47

你好

你理解的sentence / sentence collection(corpus)/ dataset方向是对的。就是在TF-IDF语境下,术语是:
单词(Token) → 句子(Sentence / Document) → 语料库(Corpus / 整个Dataset)
文档(document)就是指你用来做分析的基本文本单元,这个单元没有任何固定的“长度”要求。它可以是一本长篇小说,也可以是一封短信,或者,像本题这样的一个句子。

然后,TF (词频):计算在一个句子(Document) 里,“某个词”出现的次数。这就是 the sentence level。
IDF衡量的是在整个dataset(语料库) 中,有多少篇文章(在这里是句子) 包含了这个词。IDF关心的是“这个词有多‘稀有’”,稀有程度是用它在所有文档(这里是句子)中出现的比例来衡量的。

所以:
Statement 1 :错,IDF是 log,不是简单的倒数。
Statement 2 :错,TF是在 sentence level(句子/文档级别)计算,不是 collection level(语料库级别)。
Statement 3 :对。如果数据集(语料库)的文档(句子)数量很少,IDF的计算会变得不稳定、不准确,从而影响最终的模型性能。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录