天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

Asher2022-01-24 18:37:34

想问一下text preparation 和wrangling的本质区别在哪里 因为他们的操作很相似 都是把文本变得简单化 同质化 但是如果没有一个比较明显的区分界限 很容易记混

回答(1)

Essie2022-01-25 09:24:13

你好,在非结构性数据下,你可以把text cleansing想象成把文本转化成机器能读懂的形式,html tag,数字,空格,标点这些是机器识别不了的,修改方式简单明显,基本一眼就能看出来,所以也叫做数据清洗,就像在纠错。而text wrangling是指将本文形式转变为更加方便机器去学习和训练的形式,算是一种优化,其本质来说不属于错误,修改的方式对比前者稍复杂,而且都是在单词上做文章,无论是大小写,删去停用词,去后缀还是留词根。

  • 评论(0
  • 追问(2
评论
追问
好的 不过我看这个lowercasing也挺简单的……
追答
你好,大小写的转化是简单没错,但是本质上它不属于出现了错误,只是为了方便机器的学习运算。或者你可以记关于单词形式的变化都属于wrangling,标点、数字、html、空格,这些不属于单词形式的就是cleansing。

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录