请帮忙。

我有一个近40k数据点(行)的数据框,其中一列包含文本。例如,

ID  Text
 1  I love my mum I love my dad
 2  I live in AB I used to live in CD
 .  .
 .  .


我希望它输出如下:

ID  Text
 1  I love my mum dad
 2  I live in AB used to CD
 .  .
 .  .


我尝试了unique()make.unique(),但是它们不起作用。

最佳答案

我猜您想从每个句子中删除所有重复的单词。如果是这样,您可以尝试:

txt<-c("I love my mum I love my dad","I live in AB I used to live in CD")
vapply(strsplit(txt,"\\s+"),function(x) paste(unique(x),collapse=" "),"")
#[1] "I love my mum dad"       "I live in AB used to CD"

09-10 13:36
查看更多