0 前言
1 基尼指数简述
-
基尼指数(Gini Index)是一个在多个领域都有应用的重要指标,但其主要应用之一是在决策树算法中,用于衡量数据集的不纯度或混乱程度。
-
基尼指数也被称为基尼不纯度,表示在样本集合中一个随机选中的样本被分错的概率。
基尼值越小,表示集合中被选中的样本被分错的概率越小,即集合的纯度越高;反之,基尼指数越大,集合越不纯。 -
若使用基尼指数构建决策树时,基尼指数构建的决策树是二叉树。这种二叉树结构使得CART(Classification and Regression Trees)算法在分类和回归任务中都具有较好的性能,因为它能够较为高效地降低数据集的不纯度,并生成易于理解和解释的模型。
2 基尼指数与信息熵
如果你了解信息熵(它表示了随机变量的不确定度,对于一组数据来说,越随机,不确定性就越高,信息熵越大;不确定性越低,信息熵就越小),你可能会发现信息熵和基尼指数有些相似。
3 公式
- D表示总的样本数据集。
- A表示选定的特征。
- D1和D2分别表示根据特征A的某个值(通常是阈值或分类点)将数据集D分成的两个子集。
- |D|、|D1|和|D2|分别表示数据集D、D1和D2中的样本数量。
- Gini(D)、Gini(D1)和Gini(D2)分别表示数据集D、D1和D2的基尼指数。
- 注:计算Gini(D,A)时,数据集D只能分为两个子数据集。
4 数据集二分
4.1 理论
-
CART算法构建的是一棵二叉树,每一次分裂只会产生两个节点,怎么办呢?很简单,只要将其中一个离散值独立作为一个节点,其他的离散值生成另外一个节点即可。这种分裂方案有多少个离散值就有多少种划分的方法。
-
举一个简单的例子:如果某离散属性一个有三个离散值X,Y,Z,则该属性的分裂方法有:
{X}、{Y,Z}
{Y}、{X,Z}
{Z}、{X,Y}
分别计算每种划分方法的基尼值或者样本方差确定最优的方法。
4.2 示例
采用贷款数据集,详细请见前言。
5 例题
5.1 样本基尼指数的计算
5.1.1 例题一
假设有一个数据集包含以下样本:
类别 | 个数 |
---|---|
类别A: | 11个样本 |
类别B: | 1个样本 |
5.1.2 例题二
笔者使用贷款数据集D,详细请见前言。
5.1.3 例题三
笔者使用贷款数据集D,详细请见前言。
5.1.4 小结
根据例题一、例题二、例题三,发现最终计算的基尼指数依次增大。
例题一:0.1528
例题二:0.48
例题三:0.6577
表示数据越来越混乱,纯度越来越低。
5.2 特征A条件下基尼指数的计算
5.2.1 例题一
笔者使用贷款数据集D,详细请见前言。
6 计算程序
稍后再补
7 结语
如有错误请指正,禁止商用。
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
暂无评论内容