Q2没听懂，首先希望老师帮区分一下一共有多少个层级，我的理解是sentence / sentence collection（corpus）/dataset，这么理解对吗？然后我对不上老师说的一篇文章是哪个层？IDF到底是一篇文章有多少句，还是一个dataset有多少文章



你还未登录〜

天堂之歌

听歌而来，送我踏青云〜

0元

充值
0橙宝

充值

首页
版块大全

财经学院

CFA FRM CFRM 量化投资

从业资格

证券从业银行从业

会计学院

CPA 会计职称 ACCA CMA 财会求职灌水闲聊

金程考研

公共课 199管综 396经综金融学硕金融专硕经济学硕士会计硕士考研院校考研就业

投资理财

RFP

金融杂谈

金融动态金融八卦吐槽专区

求职招聘

职业发展金融求职职场经验职场修养

研招信息

专业院校热点资讯考研交流考研经验

考研科目

专业课公共课 199管理类联考 396经济类联考

生活日常

运动音乐电影美食交友租房

个人发展
论坛

您现在的坐在位置：首页>智汇问答>CFA问答

张同学2026-06-15 21:29:24

Q2没听懂，首先希望老师帮区分一下一共有多少个层级，我的理解是sentence / sentence collection（corpus）/dataset，这么理解对吗？然后我对不上老师说的一篇文章是哪个层？IDF到底是一篇文章有多少句，还是一个dataset有多少文章

查看试题

回答（1）

Vincent2026-06-22 08:48:47

你好

你理解的sentence / sentence collection（corpus）/ dataset方向是对的。就是在TF-IDF语境下，术语是：
单词（Token） → 句子（Sentence / Document） → 语料库（Corpus / 整个Dataset）
文档（document）就是指你用来做分析的基本文本单元，这个单元没有任何固定的“长度”要求。它可以是一本长篇小说，也可以是一封短信，或者，像本题这样的一个句子。

然后，TF (词频)：计算在一个句子（Document）里，“某个词”出现的次数。这就是 the sentence level。
IDF衡量的是在整个dataset（语料库）中，有多少篇文章（在这里是句子）包含了这个词。IDF关心的是“这个词有多‘稀有’”，稀有程度是用它在所有文档（这里是句子）中出现的比例来衡量的。

所以：
Statement 1 ：错，IDF是 log，不是简单的倒数。
Statement 2 ：错，TF是在 sentence level（句子/文档级别）计算，不是 collection level（语料库级别）。
Statement 3 ：对。如果数据集（语料库）的文档（句子）数量很少，IDF的计算会变得不稳定、不准确，从而影响最终的模型性能。