试题详情
- 简答题简述数据预处理方法和内容。
- ①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 关注下方微信公众号,在线模考后查看
热门试题
- 分别说明利用支持度、置信度和提升度评价关
- 在评价不平衡类问题分类的度量方法有如下几
- 简述在多层关联规则挖掘中,在不同的层使用
- 常用的数值属性概念分层的方法有哪些?
- 商业智能系统与一般交易系统之间在系统设计
- 什么是关联规则?关联规则的应用有哪些?
- 数据的预处理方法有哪些?
- 寻找模式和规则主要是对数据进行干扰,使其
- 简述维度归约和特征变换。
- 数据仓库就是一个面向主题的、集成的、()
- 聚类分析中常见的数据类型有哪些?
- ()通过将属性域划分为区间,从而减少给定
- 关于混合模型聚类算法的优缺点,下面说法正
- 以下哪些是数据仓库的主要应用?()
- OLTP
- 下面哪种分类方法是属于统计学的分类方法?
- 如下哪些不是基于规则分类器的特点,()。
- 置信度(confidence)是衡量兴趣
- 简述雪花模型。
- 以下各项均是针对数据仓库的不同说法,你认