我正在使用rvest解析网站。我正在用这些不间断的小空间撞墙。如何删除解析的html文档中 元素创建的空白?

library("rvest")
library("stringr")

minimal <- html("<!doctype html><title>blah</title> <p>&nbsp;foo")

bodytext <- minimal %>%
  html_node("body") %>%
  html_text

现在,我提取了正文:
bodytext
[1] " foo"

但是,我无法删除那令人讨厌的空白!
str_trim(bodytext)

gsub(pattern = " ", "", bodytext)

最佳答案

jdharrison回答:

gsub("\\W", "", bodytext)

并且,这将起作用,但是您可以使用:
gsub("[[:space:]]", "", bodytext)

这将删除所有Space characters: tab, newline, vertical tab, form feed, carriage return, space and possibly other locale-dependent characters。它是其他隐式正则表达式类的一种非常易读的替代方法。

09-25 17:24