淑同学2023-09-19 10:45:24
这部分内容感觉很混乱,一会说词出现的频率高,说明是stop words,没有真正的含义要删掉;一会又说TF、DF、MI越高越好,指标越高说明词越特殊,要保留。
回答(1)
爱吃草莓的葡萄2023-09-20 09:45:15
同学你好。TF是越高越好,但凡是有个限度,超过限度就有问题了,在限度范围内越高越好。例如一句话,全部都是the等词,此时TF为1,能够得出什么有用信息吗。
这就好比0到1之间,假如0.1与0.8是界限,低于0.1,说明出现的频率太少了,可能是专有名词表明不了特殊意思。但是如果高于0.9,就像上面的例子一样,可能是the等词,没有有用信息。在0.1到0.9中,相当于是“剔除”两端异常情况,在这种情况下越高当然越好,越高说明出现的频率越高。
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片

