你们中有谁知道一种机器学习方法或多种方法的组合,使得在决策树的构建过程中集成先验知识成为可能吗?
在“先验知识”中,我指的是某个特定节点中的某个特征是否真的对结果分类负责的信息。想象一下,我们只有很短的一段时间来测量我们的特征,在这段时间里,我们的特征之间存在着相关性。如果我们现在再次测量相同的特征,我们可能不会得到这些特征之间的相关性,因为它们之间的相关性只是巧合。不幸的是,无法再次测量。
由此产生的问题是:由算法选择来执行分割的特征并不是实际导致现实世界中分割的特征换言之,该算法选择强相关特征,而另一个特征则是应选择的特征。这就是为什么我想为树学习过程设置规则/因果关系/约束。

最佳答案

“已学习树中的特定特征”-典型的决策树每个节点都有一个特征,因此每个特征可以出现在许多不同的节点中类似地,每片叶子都有一个分类,但每个分类可能出现在多片叶子中(对于二进制分类器,任何非平凡树都必须有重复的分类)。
这意味着您可以枚举所有叶并按分类对它们进行排序,以获得叶的统一子集对于每个这样的子集,您可以分析从树根开始的所有路径,以查看发生了哪些功能。但这将是一大套。
“但在我的案例中,有些特征是紧密相关的……由算法选择执行分割的特征并不是实际导致现实世界中分割的特征。”
据说每个模型都是错误的,但有些模型是有用的如果这些特性确实有很强的相关性,那么选择这个“错误的”特性并不会真正影响模型。
当然,您可以在树构建中修改分割算法。简单地说,“如果剩下的类是A和B,使用拆分S,否则使用算法C4.5确定分裂”是一个有效的分裂算法,它对两个特定类的预先存在的知识进行硬编码,而不局限于这种情况。
但请注意,在决策树中引入一个组合类A+B可能更容易,然后在后处理中在a和B之间做出决定。

关于algorithm - 能够将先验知识整合到决策树中的机器学习方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38969196/

10-12 22:24