鸡同学2022-07-27 12:40:17
第三点和第四点具体区别在哪里呢?
回答(1)
最佳
Essie2022-07-27 16:53:20
你好,词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式,经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。它主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。而词干提取(stemming)是抽取词的词干或词根形式,词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干。
在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片