第一章:决策树原理 1-决策树算法概述_哔哩哔哩_bilibili

机器学习模型:决策树笔记-LMLPHP

 根节点的选择应该用哪个特征?接下来选什么?如何切分?

决策树判断顺序比较重要。可以使用信息增益、信息增益率、

机器学习模型:决策树笔记-LMLPHP

机器学习模型:决策树笔记-LMLPHP

在划分数据集前后信息发生的变化称为信息增益,获得信息增益最高的特征就是最好的选择。集合信息的度量方式称为香农熵,或者简称熵。

 常用的决策树算法

机器学习模型:决策树笔记-LMLPHP

 连续值应该怎么分?

排序之后二分。

机器学习模型:决策树笔记-LMLPHP

决策树剪枝策略。

决策树有过拟合的风险,理论上可以完全分得开数据(如果树足够庞大,每个叶子节点就一个数据)

剪枝策略

预剪枝:边建立决策树边进行剪枝的操作(更实用)。

限制深度;叶子节点个数;叶子节点样本数;信息增益量等。

后剪枝:当建立完决策树后进行剪枝操作(用的不多)。

04-05 14:33