0 前言

本文主要讲述了决策树C4.5算法构建原理并举例说明。
读者需要具备的知识有：信息熵、条件熵、信息增益、信息增益比。
本文所使用的数据集为：西瓜数据集 1.2节。

1 C4.5算法流程

准备数据集：
输入数据集包含多个样本，每个样本具有多个特征（属性）和一个目标类别标签。
设置阈值：
初始化信息增益的阈值ε，用于决定何时停止树的生长。在决策树的构建过程中，对于每个节点，计算所有特征的信息增益。如果某个特征的信息增益大于或等于阈值ε，则使用该特征进行节点划分；否则，停止划分，并将该节点标记为叶节点。通过设定较高的阈值，可以限制决策树的生长，减少节点的数量，从而避免过拟合。本文并未设置阈值，感兴趣的读者可以自行实验。
选择最优属性：
从候选属性中选择信息增益率最高的属性作为当前节点的分裂属性。
分裂数据集：
根据选定的最优属性的不同取值，将数据集分割成若干个子集。
递归构建子树：
对每个子集，重复步骤3~4，直到满足以下任一条件为止：①子集中的所有样本都属于同一类别。②没有更多属性可以用于进一步划分（或剩余属性的信息增益率均低于阈值ε）。

2 例题

准备数据集：
见前言西瓜数据集。假设数据集为D。
设置阈值：
本文不考虑。
构建根节点、分割数据集：结果如下图(2-1)所示。

计算出除编号、好瓜外的其他特征的信息增益比gr(?,?)，发现gr(好瓜,纹理)的信息增益比为最大，将特征纹理作为根节点，将数据集D分割成3个子集，子集①：纹理为模糊，子集②：纹理为清晰，子集③：纹理为稍糊。当纹理为模糊时全是坏瓜，故需要设置’否’叶节点，其他情况有好瓜也有坏瓜，故应该继续构建分支。
若读者规定决策树构建必须有阈值ε，假设阈值ε=0.4000，可以看出已经计算的所有特征的信息增益均小于阈值，根据阈值构建算法，此时D1、D2均应该变成叶节点(叶节点的类别应设置为该分支的子数据集中占比最多的类)，读者是否会考虑该树太”简陋”了？所以阈值的设定很大程度上关系到决策树的准确性。
递归构建图2-1的D1：结果如下图(2-2)所示。

计算特征的信息增益比gr(?,?)，选择信息增益比最大的特征构建节点，同时分割数据集D1为若干个子集，根据子集数据去设置叶节点或继续构建分支。在触感等于硬滑分支的样本最终都是好瓜，所以设置叶节点’是’，其他分支有好有坏。
递归构建图2-2的D3：结果如下图(2-3)所示。

计算出特征的信息增益比，选择第一个最大信息增益比的特征色泽构建节点，并分割数据集D3为若干子集，并判断子集需要设置叶节点还是继续构建分支。构建决策树中途会出现某分支没有特定特征的样本，请阅读上图中的文字说明。
递归构建图2-3的D4：结果如下图(2-4)所示。

同样计算信息增益比，选择信息增益比最大的特征构建节点，同时分割数据集并构建分支。从上图可以看到已经没有样本继续构建，所以下一步应该构建D2。
递归构建图2-4的D2：结果如下图(2-5)所示。

依次按照前文步算法骤，直到构建完成。

3 决策树的改进方法：剪枝

预剪枝：
在构建决策树的过程中，通过设定一些规则（如节点最小样本数、最大深度等）来提前停止树的生长，防止过拟合。
后剪枝：
在决策树完全生长后，通过剪去一些子树来降低模型的复杂度，提高模型的泛化能力。常用的后剪枝方法包括代价复杂度剪枝（CCP）等。

4 结语

如有错误请指正，禁止商用。

玄机博客

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。