我正在尝试在GAE上构建一个小型应用程序,以帮助我管理感兴趣的craigslist列表。我想从我的应用程序从这些列表中获取一些数据,但是每次这样做,我都会从craigslist中获取404。

经过一番调查后,发现我的代码不是罪魁祸首:craigslist查看HTTP标头,并在User-Agent标头中找到“ AppEngine-Google”时系统返回404!

您可以看到curl:

curl http://sfbay.craigslist.org/


起作用(返回页面)。

curl http://sfbay.craigslist.org/ --header "User-Agent: AppEngine-Google"


什么也没给

知道如何删除该GAE默认设置的标头吗?还是解决这个问题的另一个想法?

最佳答案

发出传出请求时,无法阻止App Engine进行自我识别。这是为了防止滥用。

如果Craigslist已选择将App Engine列入黑名单,则您需要与他们讨论,而不是试图逃避它。

关于python - 提取网址时如何删除Google App Engine默认 header ?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13226598/

10-10 17:58