ChiGe2023-08-21 13:44:59
data preparation里面,cleaning 步骤的invalidity errors和preprocessing步骤里outlier感觉很像,cleaning里non-uniformity error和preprosessing里的conversion, 及cleaning 里的duplication errors和preprocessing中的filtration都很相似啊?请解释
查看试题回答(1)
爱吃草莓的葡萄2023-08-22 11:52:16
同学你好。
无效错误是指数据超出有意义的范围,导致数据无效;而outlier它是指在有意义的数据中存在极端值。
例如银行对信用卡持有人数据进行分析,发现有个人出生日期是1900.1.1,这个超出了人的预期寿命范围,没有意义。而极值,例如银行发现持有人薪水大多在10万左右,有个人薪水0元,薪水0元肯定有意义,但是与极端偏离。
不一致错误是指数据与相应的数据点或现实相冲突;转换是指将数据集中的变量转换为适当的类型,以便进一步正确处理和分析它们。
重复错误是指存在重复观测的地方;过滤是指识别和过滤项目不需要的数据行。
投资更加优秀的自己👍 ~如果满意回复可【采纳】,仍有疑问可【追问】,您的声音是我们前进的源动力,祝您生活与学习愉快
- 评论(0)
- 追问(0)
评论
0/1000
追答
0/1000
+上传图片
