目前,我参与了一些与数据挖掘相关的项目。而且,我必须通过使用以GINIsplit作为分割标准的决策树归纳法,将给定的数据集(.csv格式)分类为不同的类。我在Java平台中一直没有使用任何工具进行的所有操作,例如WEKA,ORANGE ...等
我的查询是-代表决策树的最佳数据结构是什么,以便分类快速有效?而且,如果属性是名义的,数字的或序数的,是否有针对属性的优化技术(我是说)特定的技术?
提前致谢!
最佳答案
好吧,如果您真的想获得最佳的分类速度,请将您的决策树输出到... .class
。即为树生成一个代码片段,并对其进行编译。这样,可以以Java Hotspot JRE的固有速度执行评估。
因为您可以在程序逻辑中编码决策树:
if (attribute_x < 0.1) {
switch(attribute_c) {
case BANANA: {
...
主要问题是,您想进行多长时间的优化。
关于java - 表示决策树归纳的数据结构,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/14290656/