别同学2022-05-22 18:10:58
请问课后题reading5第24题怎样理解呢?
回答(1)
Essie2022-05-22 23:53:45
你好,Achler使用网络蜘蛛程序,从社交媒体网页中提取非结构化的原始内容。原始文本数据是一系列字符,包含其他无用元素,包括html标签、标点符号和空格(包括制表符、换行符和换行符)。
删除数字是非结构化数据的文本清理过程中的基本操作之一。 当文本中出现数字(或数字)时,应将其删除或替换为注释“/number/”。
lemmatization是词形还原,它发生在非结构化数据的text wrangling,是将单词形式转换为其词形词根的过程。词形还原减少了以各种形式出现的单词的重复,同时保持了文本数据的语义结构,从而有助于训练不太复杂的ML模型。
C选项的空格是对的,错在winsorization是针对结构化数据的,通常是用来消除替代异常值的手段,而这里讨论的是文本数据。
- 评论(0)
- 追问(0)


评论
0/1000
追答
0/1000
+上传图片