爱同学2023-04-24 15:38:28
为什么DF是越低越好,TF是越高越好呢?(因为讲义说TF-IDF是越高越好)
回答(1)
爱吃草莓的葡萄2023-04-24 21:06:14
同学你好.TF是term frequency,衡量的是给定单词在全部文本全部单词中出现的比率,TF越高说明该单词可能越重要(剔除停止词等常见词);
DF是document frequency,衡量的是给定单词的句子在全部句子中的比率,当一些停止词或常见词出现时,例如a、an、the等,这些词但每一句话中基本上都会有出现,如果计算DF的话,例如一篇文章可能有100句话,但是90句话都有a,你说这个单词意义大吗,显然不大,因此DF越小越好。在DF的基础上变形就得到了IDF。
TF-IDF就是上面两个的结合,即既要单词出现频率高,又要单词出现的不要太分散,越高说明越重要。
同学如果回答解决了您的疑惑,请给回答给予采纳。祝早日持证!
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

