(相关资料图)

第4章决策树

决策树这种算法原理既可用于分类也可用于回归。

基本流程

决策树就是把单一的决策拆分成了多个子决策。

一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。

叶结点对应决策结果，根节点和内部结点都对应于决策的判断条件（对属性的判断）。

我们希望分支结点包含的样本尽可能属于同一类，所以判断条件也要仔细推敲。而不同的决策树算法利用的划分指标不同。

ID3用信息增益作为划分属性的参考值。信息增益是在信息熵的基础上计算的。

用增益率作为划分属性的参考值。增益率是在信息增益的基础上计算的。原本增益率是为了解决信息增益的对取值数目较多的属性有偏好的问题而提出的，但它被提出后又对取值数目较少的属性有偏好了。

CART用基尼指数作为划分属性的参考值。基尼指数是在基尼值的基础上计算的。CART是二叉树，也就是CART的根结点和内部结点只有2个分支。

剪枝是用于对付过拟合的手段，分为预剪枝和后剪枝。预剪枝和后剪枝分别在决策树生成过程中和生成后确定是否需要剪枝。

略。

关键词：