我有一个带有一些标称值作为特征的数据集。我拥有的训练集具有一组我的测试集中所没有的名义特征值。
例如,我在训练集中的特征对应于@attribute h4 {br,pl,com,ro,th,np}
并且测试集中的相同功能具有@attribute h4 {br,pl,abc,th,def,ghi,lmno}
我相信因此,weka不允许我重新评估在测试集上基于训练集构建的模型。有没有解决的办法?我想念什么吗?
编辑:我正在使用RandomForest分类器。
谢谢
最佳答案
Weka寻求测试集中使用的所有标称值也都存在于训练集中,因为分类器应该在做出预测之前学习。
此外,Weka还使用标称值及其指数。因此,重要的是对相同属性的名义值使用相同的顺序以获得可靠的结果。
在您的情况下,只需对训练集和测试集以相同的顺序使用相同的值(涵盖所有值)即可。
您的组合值{br,pl,com,ro,th,np,abc,th,def,ghi,lmno}
可用于训练集和测试集。
关于machine-learning - Weka中看不见的标称值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20258690/