试题详情
- 简答题简述数据清理的基本内容。
- ①尽可能赋予属性名和属性值明确的含义;
②统一多数据源的属性值编码;
③去除无用的惟一属性或键值(如自动增长的id);
④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的);
⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果);
⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额);
⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 关注下方微信公众号,在线模考后查看
热门试题
- 多维分析是指以“维”形式组织起来的数据采
- 为什么说数据仓库具有随时间而变化的特征?
- 数据挖掘定义是什么?
- 简述分类器设计阶段包含的3个过程。
- 关联规则挖掘过程是发现满足最小支持度的所
- 简述数据仓库ETL软件的主要功能和对产生
- 哪种数据变换的方法将数据沿概念分层向上汇
- 简述基于划分的聚类方法。划分的准则是什么
- 数据仓库系统的组成部分包括数据仓库,仓库
- 简述数据仓库设计的三级模型的基本内容。
- “实时数据仓库”以为着源数据系统、决策支
- 数据挖掘
- 维度可以根据其变化快慢分为元变化维度、(
- 分别说明利用支持度、置信度和提升度评价关
- 比较数据挖掘与OLAP的差异?
- 数据挖掘应用和一些常见的数据统计分析系统
- 建立一个模型,通过这个模型根据已知的变量
- 聚类分析包括连续型、二值离散型、()和混
- BIRCH是一种()。
- 数据压缩可分为:()和 ()两种类型。