我使用 R 来挖掘推文,我得到了推文中使用最频繁的词。然而,最常用的词是这样的:
[1] "cant" "dont" "girl" "gonna" "lol" "love"
[7] "que" "thats" "watching" "wish" "youre"
我正在寻找文本中的趋势、名称和事件。
我想知道是否有办法从语料库中删除此短信样式的词(例如要去,想要,...)?他们有什么停用词吗?
任何帮助,将不胜感激。
最佳答案
文本挖掘包维护它自己的停用词列表,并提供用于管理和总结此类文本的有用工具。
假设您的推文存储在一个向量中。
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))
您可以将最后一行与您自己的停用词()列表一起使用:
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )
不幸的是,您必须生成自己的“文本消息”或“互联网消息”停用词列表。
但是,您可以通过从 NetLingo ( http://vps.netlingo.com/acronyms.php ) 借来作弊
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)
关于r - 寻找 twit 和短信风格的停用词,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13558703/