我想从this page上的表中抓取数据

但是GET中的httrread_html中的rvest都无法读取该表。我已经检查了该网页的结构,并且在加载网页时找不到任何有关获取数据的POST或GET请求。

最佳答案

从页面源中,我们可以看到表格已嵌入框架中。表本身的URL为at this link

因此,您可以尝试:

u <- "http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1466632112484&V_YEAR=2016&V_waterplace=%27%E5%90%89%E6%9E%97%E6%BA%AA%E6%B5%AA%E5%8F%A3%27"

mytable <- u %>%
  read_html() %>%
  html_node("table") %>%
  html_table()


然后进行一些清理以处理非英语字符。

09-03 18:42