天堂之歌

听歌而来,送我踏青云〜

您现在的坐在位置:首页>智汇问答>CFA二级

丁同学2023-05-12 17:25:52

Q2,在文本数据处理和清洗过程中,优先级高的应该是white space和html tags呀,而numbers和标点应该是可选的处理方式。这个题目答案为什么是numbers呢?

查看试题

回答(1)

爱吃草莓的葡萄2023-05-14 18:12:38

同学你好。在文本数据的清洗与预处理过程中,没有说哪一个是优先级高的。本题考查的是文本数据与结构数据处理方式。A与C选项的scale与winsorization是结构化数据的操作,而本题问的是非结构化数据,因此方法不对。

  • 评论(0
  • 追问(2
评论
追问
可是,在基础课里面和其他问题的解答视频里面,林老师有讲过,html和空白是肯定要做的处理,而num和大小写会有选择的进行处理; 另外,从题目具体哪里可以看出来“考察的是非结构化数据的处理”?
追答
同学你好。 老师说的如果符号或数字如果有意义那需要替换,没有说是可处理可不处理的意思。 同学你说的优先级,优先级的意思是说如果这四个都存在,哪一个先处理哪一个后处理。在这里没有这一说,都是需要处理的,有的是去除有的是替换。 在文章中“statement 2”下一段话对应的就是本题。这一段开始就说了数据获取基于text-based model。

精品推荐

评论

0/1000

追答

0/1000

+上传图片

    400-700-9596
    (每日9:00-21:00免长途费 )

    ©2026金程网校保留所有权利

    X

    注册金程网校

    验证码

    同意金程的《用户协议》
    直接登录:

    已有账号登录