崔同学2025-01-21 15:49:29
句子集,和语料库是一个意思吗? 计算TFIDF时,为什么TF 与 DF 指标的方向性是相反的呢? 我理解句子集是我们要分析的文本,语料库是指提前通过科学统计方法,准备的用于文本分析的基础库。 请问我的理解错在哪里呢?
回答(1)
爱吃草莓的葡萄2025-01-23 09:43:35
同学你好。句子集(collection)与语料集(corpus)是一个意思,在语料库层的词频也称为集合频率(collection frequency)。
TF衡量的是词在单个文档中的重要性。如果一个词在某个文档中频繁出现,那么它很可能与这个文档的主题密切相关,因此TF值会很高。
DF衡量的是词在语料库中的普遍性。如果一个词在很多文档中都出现,那么它很可能是一个通用词(如“的”“是”“在”等),对区分文档主题的意义不大。因此,DF值越高,这个词的区分能力越弱。
例如两篇文档,由众多句子(sentence)组成,每个句子可以给他一个编号,这些句子组成了句子集合collection或语料集corpus。在句子层面可以分析词出现的频率TF (Sentence Level),也可以分析词在整个集合中出现的频率TF (Collection Level)。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片