我正在尝试访问维基百科页面以获取页面列表,并收到以下错误:

library(RCurl)
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4"
getURL(u)
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n"

我希望通过 Wikipedia api 进入该页面,但 I am not sure it would work

问题是其他页面的读取没有问题,例如:
u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk"
getURL(u)

有什么建议么?

旁注:一般来说,我宁愿不抓取 wiki 页面并通过 api,但我担心这个特定页面尚未通过 api 可用...

最佳答案

根据 the documentation of RCurl ,您可以通过添加 httpheader 参数来指定其他 header :

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info"))

关于r - 在 getURL 中设置 "an informative User-Agent string",我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/9056705/

10-11 06:22