我正在使用rvest
解析网站。我正在用这些不间断的小空间撞墙。如何删除解析的html文档中
元素创建的空白?
library("rvest")
library("stringr")
minimal <- html("<!doctype html><title>blah</title> <p> foo")
bodytext <- minimal %>%
html_node("body") %>%
html_text
现在,我提取了正文:
bodytext
[1] " foo"
但是,我无法删除那令人讨厌的空白!
str_trim(bodytext)
gsub(pattern = " ", "", bodytext)
最佳答案
jdharrison回答:
gsub("\\W", "", bodytext)
并且,这将起作用,但是您可以使用:
gsub("[[:space:]]", "", bodytext)
这将删除所有
Space characters: tab, newline, vertical tab, form feed, carriage return, space and possibly other locale-dependent characters
。它是其他隐式正则表达式类的一种非常易读的替代方法。