天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

别同学2022-05-22 18:10:58

请问课后题reading5第24题怎样理解呢?

回答(1)

Essie2022-05-22 23:53:45

你好,Achler使用网络蜘蛛程序,从社交媒体网页中提取非结构化的原始内容。原始文本数据是一系列字符,包含其他无用元素,包括html标签、标点符号和空格(包括制表符、换行符和换行符)。
删除数字是非结构化数据的文本清理过程中的基本操作之一。 当文本中出现数字(或数字)时,应将其删除或替换为注释“/number/”。
lemmatization是词形还原,它发生在非结构化数据的text wrangling,是将单词形式转换为其词形词根的过程。词形还原减少了以各种形式出现的单词的重复,同时保持了文本数据的语义结构,从而有助于训练不太复杂的ML模型。

C选项的空格是对的,错在winsorization是针对结构化数据的,通常是用来消除替代异常值的手段,而这里讨论的是文本数据。

  • 评论(0
  • 追问(0
评论

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2025金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录