简述数据清理的基本内容。_睦霖题库

简答题简述数据清理的基本内容。

正确答案：①尽可能赋予属性名和属性值明确的含义；
②统一多数据源的属性值编码；
③去除无用的惟一属性或键值（如自动增长的id）；
④去除重复属性（在某些分析中，年龄和出生日期可能就是重复的属性，但在某些时候它们可能又是同时需要的）；
⑤去除可忽略字段（大部分为空值的属性一般是没有什么价值的，如果不去除可能造成错误的数据挖掘结果）；
⑥合理选择关联字段（对于多个关联性较强的属性，重复无益，只需选择其中的部分用于数据挖掘即可，如价格、数据、金额）；
⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。
答案解析：
关注下方微信公众号，在线模考后查看

热门试题