张同学2023-04-24 13:10:12
Stemming、Lemmatization、scaling、winsorization分别是什么操作,用在哪里
回答(1)
爱吃草莓的葡萄2023-04-24 22:10:33
同学你好。
stemming:词干提取,像我们英语中学过构词法,一个单词通过加各种前缀后缀改变词性等意思,词干提取就是换元词干。例如stemming,是stem的-ing形式,,在词干提取时提取stem。
Lemmatization:词根还原,例如analysis、analyzing词根为analyze;
winsorization:将大异常值替换为最大值和将小异常值替换为最小值;
scaling:缩放比例,例如例如从1到100数据特别分散,我使用缩放比例来刻画这组数据,例如最大是101,最小是1,那么数据50就是0.49(50-1)/(101-1),这是缩放的一种手法,将这组数据集中在0-1中间。
这些手法都用在数据的预处理阶段。
同学如果回答解决了您的疑惑,请给回答给予采纳。祝早日持证!
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片
