我对拆分节点有疑问。我有4个功能,想要预测该人是否会玩,也许会玩或不玩。基于信息增益,我将天气作为第一个拆分的要素,使我的分支机构多雨,潮湿和潮湿。多雨的结果纯属肯定预测。湿热不。我正在尝试确定下一步应选择哪个特征值(“热”还是“湿”?)。我知道我可以根据最大信息增益选择下一个功能。具有最大信息增益的下一个功能是性别。但是我不知道我应该使用Hot还是走下去,还是Humid?
Weather
Rainy Hot Humid
Yes
Gender YoungOrOld Weather Mood Play?
Male 0 Hot Bad Yes
Male 1 Hot OK Yes
Female 1 Hot OK Maybe
Female 0 Hot Bad Yes
Male 1 Hot OK Yes
Male 0 Humid OK Yes
Female 1 Humid OK Maybe
Female 1 Rainy Good No
Male 2 Rainy OK No
Female 2 Rainy Good No
最佳答案
您已按特征“天气”对数据集的样本进行了划分,现在您可以看到,当节点中的“天气=多雨”样本为纯样本时,与其他非纯节点不同,您无需从此处拆分该节点“天气=高温”或“天气=潮湿”。由于存在杂质,默认情况下应将它们都分开。但是,您可以指定自己的停止条件,除了在节点为纯节点时停止采样之外,还可以指定分割节点所需的最小样本数,然后不仅在节点纯时也停止节点的分割,而在节点的分割点过少时也可以停止分割节点中的样本以执行拆分。
关于machine-learning - 机器学习-决策树-分割特征值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32575565/