试题详情
简答题简述数据清理的基本内容。
  • ①尽可能赋予属性名和属性值明确的含义;
    ②统一多数据源的属性值编码;
    ③去除无用的惟一属性或键值(如自动增长的id);
    ④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的);
    ⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果);
    ⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额);
    ⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。
  • 关注下方微信公众号,在线模考后查看

热门试题