我对拆分节点有疑问。我有4个功能,想要预测该人是否会玩,也许会玩或不玩。基于信息增益,我将天气作为第一个拆分的要素,使我的分支机构多雨,潮湿和潮湿。多雨的结果纯属肯定预测。湿热不。我正在尝试确定下一步应选择哪个特征值(“热”还是“湿”?)。我知道我可以根据最大信息增益选择下一个功能。具有最大信息增益的下一个功能是性别。但是我不知道我应该使用Hot还是走下去,还是Humid?

               Weather
Rainy            Hot             Humid
Yes


Gender  YoungOrOld  Weather Mood    Play?
Male    0           Hot     Bad     Yes
Male    1           Hot     OK      Yes
Female  1           Hot     OK      Maybe
Female  0           Hot     Bad     Yes
Male    1           Hot     OK      Yes
Male    0           Humid   OK      Yes
Female  1           Humid   OK      Maybe
Female  1           Rainy   Good    No
Male    2           Rainy   OK      No
Female  2           Rainy   Good    No

最佳答案

您已按特征“天气”对数据集的样本进行了划分,现在您可以看到,当节点中的“天气=多雨”样本为纯样本时,与其他非纯节点不同,您无需从此处拆分该节点“天气=高温”或“天气=潮湿”。由于存在杂质,默认情况下应将它们都分开。但是,您可以指定自己的停止条件,除了在节点为纯节点时停止采样之外,还可以指定分割节点所需的最小样本数,然后不仅在节点纯时也停止节点的分割,而在节点的分割点过少时也可以停止分割节点中的样本以执行拆分。

关于machine-learning - 机器学习-决策树-分割特征值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32575565/

10-12 22:44