L2024-08-05 16:40:31
这里写的是对raw text data进行preprocess,但是后面实际上是开始清洗,所以是prepare和preprocess吧,因为清洗不属于preprocess,还是说考试中并没有完全区分这两个词呢
回答(1)
爱吃草莓的葡萄2024-08-06 14:41:54
同学你好。文本数据清洗(准备)包括删除html标签、删除空格、删除数字、删除标点符号;接着就是文本数据预处理,包括小写化、去掉停顿词、词性还原与词根还原。
结构数据清洗(准备)是将几种可能存在的错误去掉;接着就是结构数据预处理,包括提取、汇总、转换、选择、过滤。
第一段写的就是结构化数据预处理,根据已有的特征提取、汇总或转换出新的特征,怎么是清洗呢,也没有说删除几种可能存在的错误,也没有说删除标签、符号等内容。
- 评论(0)
- 追问(2)
- 追问
-
题目后面一页就是这个呀,第一步就是clean the raw text data
- 追答
-
同学你好。在本题中也是有区分的。最后一段话的意思是说:两人讨论如何对原始文本数据进行预处理,然后一人告诉另一人原始文本数据处理需经下面三步完成。也就是说下面三步是数据处理的步骤,数据处理包括数据准备(即清洗)和数据整理(即预处理)这两步。
评论
0/1000
追答
0/1000
+上传图片


