鲁同学2023-10-07 12:41:51
讲义中明确表示, token词频过高或过低都不好,为什么TF 以及 TF*IDF越高越好
回答(1)
爱吃草莓的葡萄2023-10-08 15:54:41
同学你好。token确实过高与过低都不好,但是把这两头掐掉后,TF是高一点好还是低一点好,是不是越高越好。但是怎么处理过高与过低词呢,引入了DF,这个指标越高说明没有差异性,像什么the等,经常出现那有差异性,因此它越低越好,是不是间接处理了过高与过低词。然而我们在比较是一个高一个低,结合起来是高还是低不确定,难以判断,因此将DF转化为IDF,这样TF与IDF都变成越高越好,两个结合起来也容易确定。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

