我想使用R进行文本分类。我使用DocumentTermMatrix返回单词矩阵:

library(tm)
crude <- "japan korea usa uk albania azerbaijan"
corps <- Corpus(VectorSource(crude))
dtm <- DocumentTermMatrix(corps)
inspect(dtm)

words <- c("australia", "korea", "uganda", "japan", "argentina", "turkey")
test <- DocumentTermMatrix(corps, control=list(dictionary = words))
inspect(test)


第一个inspect(dtm)可以按预期工作,结果如下:

    Terms
Docs albania azerbaijan japan korea usa
   1       1          1     1     1   1


但是第二个inspect(test)显示此结果:

    Terms
Docs argentina australia japan korea turkey uganda
   1         0         1     0     1      0      0


虽然预期结果是:

    Terms
Docs argentina australia japan korea turkey uganda
   1         0         0     1     1      0      0


是错误还是我使用错误的方式?

最佳答案

索引词频时,Corpus()似乎有一个错误。

请改用VCorpus(),这将为您提供预期的结果。

08-05 05:10