Asher2022-01-24 18:37:34
想问一下text preparation 和wrangling的本质区别在哪里 因为他们的操作很相似 都是把文本变得简单化 同质化 但是如果没有一个比较明显的区分界限 很容易记混
回答(1)
Essie2022-01-25 09:24:13
你好,在非结构性数据下,你可以把text cleansing想象成把文本转化成机器能读懂的形式,html tag,数字,空格,标点这些是机器识别不了的,修改方式简单明显,基本一眼就能看出来,所以也叫做数据清洗,就像在纠错。而text wrangling是指将本文形式转变为更加方便机器去学习和训练的形式,算是一种优化,其本质来说不属于错误,修改的方式对比前者稍复杂,而且都是在单词上做文章,无论是大小写,删去停用词,去后缀还是留词根。
- 评论(0)
- 追问(2)
- 追问
-
好的 不过我看这个lowercasing也挺简单的……
- 追答
-
你好,大小写的转化是简单没错,但是本质上它不属于出现了错误,只是为了方便机器的学习运算。或者你可以记关于单词形式的变化都属于wrangling,标点、数字、html、空格,这些不属于单词形式的就是cleansing。
评论
0/1000
追答
0/1000
+上传图片

