丁同学2023-05-12 17:25:52
Q2,在文本数据处理和清洗过程中,优先级高的应该是white space和html tags呀,而numbers和标点应该是可选的处理方式。这个题目答案为什么是numbers呢?
查看试题回答(1)
爱吃草莓的葡萄2023-05-14 18:12:38
同学你好。在文本数据的清洗与预处理过程中,没有说哪一个是优先级高的。本题考查的是文本数据与结构数据处理方式。A与C选项的scale与winsorization是结构化数据的操作,而本题问的是非结构化数据,因此方法不对。
- 评论(0)
- 追问(2)
- 追问
-
可是,在基础课里面和其他问题的解答视频里面,林老师有讲过,html和空白是肯定要做的处理,而num和大小写会有选择的进行处理;
另外,从题目具体哪里可以看出来“考察的是非结构化数据的处理”?
- 追答
-
同学你好。
老师说的如果符号或数字如果有意义那需要替换,没有说是可处理可不处理的意思。
同学你说的优先级,优先级的意思是说如果这四个都存在,哪一个先处理哪一个后处理。在这里没有这一说,都是需要处理的,有的是去除有的是替换。
在文章中“statement 2”下一段话对应的就是本题。这一段开始就说了数据获取基于text-based model。
评论
0/1000
追答
0/1000
+上传图片
