我试图将文本文档分类为多个类别。
我的下面的代码工作正常

matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE,stemWords=FALSE,weighting=weightTf,minWordLength=3)
container[[i]] <- create_container(matrix[[i]],trainingdata[[i]][,2],trainSize=1:50,testSize=51:100) ,
models[[i]] <- train_models(container[[i]], algorithms=c("MAXENT","SVM"))
results[[i]] = classify_models(container[[i]],models[[i]])

当我尝试下面的代码以获取Precision,召回率,Precision值时:
analytic[[i]]  <- create_analytics(container[[i]], results[[i]])

我收到以下错误:
Error in `row.names<-.data.frame`(`*tmp*`, value = c(NA_real_, NA_real_ :
  duplicate 'row.names' are not allowed

我的Categoriestext格式。
如果我将这些categories转换为Numeric-上面的代码可以正常工作。

是否有解决方法可以将类别保持为text格式并获取Precision,查全率,准确性值。

我的目标是获取用于多类分类器的精度,查全率,精度值和混淆矩阵。
是否有其他软件包可以获取多类文本分类器的上述值(一个对所有)

最佳答案

正如user3294343所评论的,它为我工作,将我的类字段转换为一个因子,然后转换为数值,如下所示:

doc_matrix <- create_matrix(dataset.arff$text, language="english", removeNumbers=TRUE, stemWords=TRUE, removeSparseTerms=.998)
container <- create_container(doc_matrix, as.numeric(factor(dataset.arff$"@@class@@")), trainSize=1:1500, testSize=1501:1999, virgin=FALSE)

那为我解决了错误。

关于r - RTextTools中的Create_Analytics,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/23561341/

10-12 03:26