我正在尝试在craigslist sfbay.craigslist.org上进行HTTP GET。这是我的( ruby )代码,它非常简单
require 'net/http'
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org'))
我最终收到错误消息“此IP已被自动阻止。”
仅当我从Amazon EC2或heroku上尝试此行为时,才会发生此行为。当我在自己的计算机localhost上再次尝试时,会得到正确的结果。这与Amazon EC2有关吗?
我想知道其他人是否也遇到过同样的问题。如何从EC2访问craigslist?
最佳答案
我可以确认Craigslist通过IP(而不是通过用户代理)阻止了主要的Amazon EC2 IP范围。它可以在其他地方使用,尽管我怀疑任何容量都会导致其他IP被阻止。
您可以使用tor绕开它。更重要的是this stackoverflow question discusses data sources used by craigslist mashups。
我甚至测试了巴西EC2,假设它们可能没有阻止所有CIDR。没有布宜诺斯艾利斯。