试题详情
- 简答题简述k-means算法,层次聚类算法的优缺点。
- (1)k-means算法:
优点:算法描述容易,实现简单快速
不足:
簇的个数要预先给定
对初始值的依赖极大
不适合大量数据的处理
对噪声点和离群点很敏感
很难检测到“自然的”簇
(2)层次聚类算法:
BIRCH算法:
优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
C.URE算法:
优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
缺点:算法在处理大量数据时必须基于抽样,划分等技术。
R.OCK算法:
优点:分类恰当,可采用随机抽样处理数据。
缺点:最坏的情况下时间复杂度级数大。
基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。 关注下方微信公众号,在线模考后查看
热门试题
- 孤立点
- ()都属于分裂的层次聚类算法。
- 根据特征选择过程与后续 数据挖掘任务的关
- 什么是分类?分类的应用领域有哪些?
- 下面哪个属于映射数据到新的空间的方法?(
- 简述数据挖掘的过程。
- 对于SVM分类算法,待分样本集中的大部分
- 相异度矩阵
- 假定用于分析的数据包含属性age。数据元
- 通过聚集多个分类器的预测来提高分类准确率
- 数据挖掘的目标不在于数据采集策略,而在于
- 下面哪种不属于数据预处理的方法?()
- 什么是数据仓库的数据ETL过程?
- OLAP服务器的类型主要包括:()、()
- 列举操作型数据与分析型数据的主要区别。
- 数据仓库的概念模型通常采用信息包图法来进
- 试述对于多个异种信息源的集成,为什么许多
- 求和函数sum()是一个()的函数。
- 下面哪种数据挖掘方法可以用来检测孤立点?
- 简述数据仓库与数据挖掘的关系?