0 前言
- 本文主要讲述了决策树C4.5算法构建原理并举例说明。
- 读者需要具备的知识有:信息熵、条件熵、信息增益、信息增益比。
- 本文所使用的数据集为:西瓜数据集 1.2节。
1 C4.5算法流程
-
准备数据集:
输入数据集包含多个样本,每个样本具有多个特征(属性)和一个目标类别标签。 -
设置阈值:
初始化信息增益的阈值ε,用于决定何时停止树的生长。在决策树的构建过程中,对于每个节点,计算所有特征的信息增益。如果某个特征的信息增益大于或等于阈值ε,则使用该特征进行节点划分;否则,停止划分,并将该节点标记为叶节点。通过设定较高的阈值,可以限制决策树的生长,减少节点的数量,从而避免过拟合。本文并未设置阈值,感兴趣的读者可以自行实验。 -
选择最优属性:
从候选属性中选择信息增益率最高的属性作为当前节点的分裂属性。 -
分裂数据集:
根据选定的最优属性的不同取值,将数据集分割成若干个子集。 -
递归构建子树:
对每个子集,重复步骤3~4,直到满足以下任一条件为止:①子集中的所有样本都属于同一类别。②没有更多属性可以用于进一步划分(或剩余属性的信息增益率均低于阈值ε)。
2 例题
-
准备数据集:
见前言西瓜数据集。假设数据集为D。 -
设置阈值:
本文不考虑。 -
构建根节点、分割数据集:结果如下图(2-1)所示。
计算出除编号、好瓜外的其他特征的信息增益比gr(?,?),发现gr(好瓜,纹理)的信息增益比为最大,将特征纹理作为根节点,将数据集D分割成3个子集,子集①:纹理为模糊,子集②:纹理为清晰,子集③:纹理为稍糊。当纹理为模糊时全是坏瓜,故需要设置’否’叶节点,其他情况有好瓜也有坏瓜,故应该继续构建分支。
若读者规定决策树构建必须有阈值ε,假设阈值ε=0.4000,可以看出已经计算的所有特征的信息增益均小于阈值,根据阈值构建算法,此时D1、D2均应该变成叶节点(叶节点的类别应设置为该分支的子数据集中占比最多的类),读者是否会考虑该树太”简陋”了?所以阈值的设定很大程度上关系到决策树的准确性。 -
递归构建图2-1的D1:结果如下图(2-2)所示。
计算特征的信息增益比gr(?,?),选择信息增益比最大的特征构建节点,同时分割数据集D1为若干个子集,根据子集数据去设置叶节点或继续构建分支。在触感等于硬滑分支的样本最终都是好瓜,所以设置叶节点’是’,其他分支有好有坏。 -
递归构建图2-2的D3:结果如下图(2-3)所示。
计算出特征的信息增益比,选择第一个最大信息增益比的特征色泽构建节点,并分割数据集D3为若干子集,并判断子集需要设置叶节点还是继续构建分支。构建决策树中途会出现某分支没有特定特征的样本,请阅读上图中的文字说明。 -
递归构建图2-3的D4:结果如下图(2-4)所示。
同样计算信息增益比,选择信息增益比最大的特征构建节点,同时分割数据集并构建分支。从上图可以看到已经没有样本继续构建,所以下一步应该构建D2。 -
递归构建图2-4的D2:结果如下图(2-5)所示。
依次按照前文步算法骤,直到构建完成。
3 决策树的改进方法:剪枝
-
预剪枝:
在构建决策树的过程中,通过设定一些规则(如节点最小样本数、最大深度等)来提前停止树的生长,防止过拟合。 -
后剪枝:
在决策树完全生长后,通过剪去一些子树来降低模型的复杂度,提高模型的泛化能力。常用的后剪枝方法包括代价复杂度剪枝(CCP)等。
4 结语
如有错误请指正,禁止商用。
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
暂无评论内容