红同学2023-05-20 16:47:52
lemmatization stemming lowver case remove stop words tokenization 可否分别帮忙举些例子?
查看试题回答(1)
最佳
Vincent2023-05-21 11:43:16
你好
lemmatization :词形还原,比如wolves变成wolf
stemming:词干提取,比如把integrating变成integrat
两者其实有共同点,即都是要找到词的原始形式。只不过词干提取(stemming)会更加激进一点,它在寻找词干的时候可以会得到不是词的词干。比如"leaves"的词干可能得到的是"leav", 并不是一个词。而词形还原则保守一些,它一般只对能够还原成一个正确的词的词进行处理。
lowver case :把大写变小写
tokenization: 把句子This is great, 拆成 this,is, great 三个词
remove stop words:停用词就是句子没什么必要的单词,去掉他们以后对理解整个句子的语义没有影响。文本中,会存在大量的虚词、代词或者没有特定含义的动词、名词,这些词语对文本分析起不到任何的帮助,我们往往希望能去掉这些“停用词”。比如上例中,就是把this 和 is 这些词去掉。
- 评论(0)
- 追问(1)
- 追问
-
谢谢老师!
评论
0/1000
追答
0/1000
+上传图片