天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

红同学2023-05-20 16:47:52

lemmatization stemming lowver case remove stop words tokenization 可否分别帮忙举些例子?

查看试题

回答(1)

最佳

Vincent2023-05-21 11:43:16

你好

lemmatization :词形还原,比如wolves变成wolf

stemming:词干提取,比如把integrating变成integrat

两者其实有共同点,即都是要找到词的原始形式。只不过词干提取(stemming)会更加激进一点,它在寻找词干的时候可以会得到不是词的词干。比如"leaves"的词干可能得到的是"leav", 并不是一个词。而词形还原则保守一些,它一般只对能够还原成一个正确的词的词进行处理。

lowver case :把大写变小写

tokenization: 把句子This is great, 拆成 this,is, great 三个词

remove stop words:停用词就是句子没什么必要的单词,去掉他们以后对理解整个句子的语义没有影响。文本中,会存在大量的虚词、代词或者没有特定含义的动词、名词,这些词语对文本分析起不到任何的帮助,我们往往希望能去掉这些“停用词”。比如上例中,就是把this 和 is 这些词去掉。



  • 评论(0
  • 追问(1
评论
追问
谢谢老师!

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2024金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录