我正在尝试访问维基百科页面以获取页面列表,并收到以下错误:
library(RCurl)
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4"
getURL(u)
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n"
我希望通过 Wikipedia api 进入该页面,但 I am not sure it would work 。
问题是其他页面的读取没有问题,例如:
u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk"
getURL(u)
有什么建议么?
旁注:一般来说,我宁愿不抓取 wiki 页面并通过 api,但我担心这个特定页面尚未通过 api 可用...
最佳答案
根据 the documentation of RCurl
,您可以通过添加 httpheader
参数来指定其他 header :
getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info"))
关于r - 在 getURL 中设置 "an informative User-Agent string",我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9056705/