这是我的问题。我需要实现一个多目标决策树算法。多目标是多标签学习的扩展,其中标签不是二进制的,而是可以连续的,分类的等等。例如,用于多标签分类问题的标签向量可能看起来像{{,1,0,0,0,0,1},而对于多目标标签问题看起来像{{2,35,3,-2, 24}。
我的问题是这个。如果我有一个带有3个离散值的标签,该如何在向量中表示它们?
可以说我有一个名为job的标签,并采用3个值,即机械师,老师和运动员。我如何编码此标签才能在向量中使用它?
在决策树的每个节点上,为了找到我的分割,我需要计算该节点中所有标签向量的均值向量(我正在使用方差方法方程式来找到我的分割)。如果我有二进制标签,这将很容易,因为添加0和1不会造成任何问题。如果我用0,1,2将这3个工作编码,那么这是个问题,因为添加具有标签运动员的标签向量比添加具有工作机制的向量要重要得多,而平均向量是不准确的。

让我们举这个例子。我有以下3个标签:

          job: {mechanic,teacher,athlete}
          married:{yes,no}
          age:  continuous value


可以很容易地说,已婚标签可以编码为{0,1},而年龄标签可以编码为连续数字。但是我该如何编码工作标签?将其编码为{0,1,2}会导致下一个问题。想象一个节点中的2个标签向量:{0,0,45},对应于已婚的45岁技工,{2,1,48}对应于45岁的未婚运动员。平均向量是{1,0.5,46.5}。有了这个向量,我可以预测到该节点的实例的年龄是46.5,我可以说该实例未结婚(规则说大于或等于0.5的值为1),并且我可以说它的实例工作是老师。老师的工作是完全错误的,而其他人还可以。您现在看到编码分类标签的问题。帮助或建议???感谢:D

最佳答案

如果值大于2,如何将要素的所有离散值都转换为要素,例如:

job: {mechanic, teacher, athlete}
married:{yes, no}
age:  continuous value


将导致5维vecor

(机械0/1,老师0/1,运动员0/1,已婚0 / 1、0-inf岁)

关于vector - 多目标决策树,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8682571/

10-12 14:55