试题详情
- 简答题考虑下表所示二元分类问题的数据集。 (1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性? (2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性?
- 按照属性A和B划分时,数据集可分为如下两种情况:
按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为:
按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为:
因此,决策树归纳算法将会选择属性A。
(2)
划分前的Gini值为G=1-0.42-0.62=0.48
按照属性A划分时Gini指标:
因此,决策树归纳算法将会选择属性B。 关注下方微信公众号,在线模考后查看
热门试题
- 什么是关于数据仓库映射的元数据?
- 以下是哪一个聚类算法的算法流程()。
- 在抽样方法中,当合适的样本容量很难确定时
- 下面关于数据粒度的描述不正确的是()
- 朴素贝叶斯分类是基于()假设。
- ROLAP是基于()的OLAP实现,而M
- 数据仓库
- 数据挖掘要解决的问题是什么?
- OLAP技术侧重于把数据库中的数据进行分
- ()都属于分裂的层次聚类算法。
- DBSCAN是相对抗噪声的,并且能够处理
- 频繁项集
- 序列数据没有时间戳。
- 特征提取技术并不依赖于特定的领域。
- 什么是ETL?
- 聚类分析常作为一个独立的工具来获得()
- 下面哪些问题是我们进行数据预处理的原因?
- 数据仓库按照其开发过程,其关键环节包括(
- 数据挖掘的效果直接受到()的影响。
- 一所大学内的各年纪人数分别为:一年级20