目前,我参与了一些与数据挖掘相关的项目。而且,我必须通过使用以GINIsplit作为分割标准的决策树归纳法,将给定的数据集(.csv格式)分类为不同的类。我在Java平台中一直没有使用任何工具进行的所有操作,例如WEKA,ORANGE ...等

我的查询是-代表决策树的最佳数据结构是什么,以便分类快速有效?而且,如果属性是名义的,数字的或序数的,是否有针对属性的优化技术(我是说)特定的技术?

提前致谢!

最佳答案

好吧,如果您真的想获得最佳的分类速度,请将您的决策树输出到... .class。即为树生成一个代码片段,并对其进行编译。这样,可以以Java Hotspot JRE的固有速度执行评估。

因为您可以在程序逻辑中编码决策树:

if (attribute_x < 0.1) {
    switch(attribute_c) {
        case BANANA: {
            ...


主要问题是,您想进行多长时间的优化。

关于java - 表示决策树归纳的数据结构,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/14290656/

10-12 22:23