天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

崔同学2025-01-21 15:49:29

句子集,和语料库是一个意思吗? 计算TFIDF时,为什么TF 与 DF 指标的方向性是相反的呢? 我理解句子集是我们要分析的文本,语料库是指提前通过科学统计方法,准备的用于文本分析的基础库。 请问我的理解错在哪里呢?

回答(1)

爱吃草莓的葡萄2025-01-23 09:43:35

同学你好。句子集(collection)与语料集(corpus)是一个意思,在语料库层的词频也称为集合频率(collection frequency)。

TF衡量的是词在单个文档中的重要性。如果一个词在某个文档中频繁出现,那么它很可能与这个文档的主题密切相关,因此TF值会很高。
DF衡量的是词在语料库中的普遍性。如果一个词在很多文档中都出现,那么它很可能是一个通用词(如“的”“是”“在”等),对区分文档主题的意义不大。因此,DF值越高,这个词的区分能力越弱。

例如两篇文档,由众多句子(sentence)组成,每个句子可以给他一个编号,这些句子组成了句子集合collection或语料集corpus。在句子层面可以分析词出现的频率TF (Sentence Level),也可以分析词在整个集合中出现的频率TF (Collection Level)。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录