分类算法：决策树（C4.5）

Yanjun — Sun, 13 Oct 2013 12:46:49 +0000

C4.5是机器学习算法中的另一个分类决策树算法，它是基于ID3算法进行改进后的一种重要算法，相比于ID3算法，改进有如下几个要点：用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，这里可以用很多方法来定义信息，ID3使用的是熵（entropy，熵是一种不纯度度量准则），也就是熵的变化值，而C4.5用的是信息增益率。在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过适应（Overfitting），如果不考虑这些结点可能会更好。对非离散数据也能处理。能够对不完整数据进行处理。首先，说明一下如何计算信息增益率。熟悉了ID3算法后，已经知道如何计算信息增益，计算公式如下所示（来自Wikipedia）：或者，用另一个更加直观容易理解的公式计算：按照类标签对训练数据集D的属性集A进行划分，得到信息熵：按照属性集A中每个属性进行划分，得到一组信息熵：计算信息增益然后计算信息增益，即前者对后者做差，得到属性集合A一组信息增益：这样，信息增益就计算出来了。计算信息增益率下面看，计算信息增益率

简单之美 » Tag » C4.5

分类算法：决策树（C4.5）