我想是否可以使用scrapy + crawlera来抓取https页面。到目前为止,我使用的Python请求具有以下设置:
proxy_host = 'proxy.crawlera.com'
proxy_port = '8010'
proxy_auth = 'MY_KEY'
proxies = {
"https": "https://{}@{}:{}/".format(proxy_auth, proxy_host,
proxy_port),
"http": "http://{}@{}:{}/".format(proxy_auth, proxy_host, proxy_port)
}
ca_cert = 'crawlera-ca.crt'
res = requests.get(url='https://www.google.com/',
proxies=proxies,
verify=ca_cert
)
我想通过Scrapy进入异步执行。我知道有scrapy-crawlera插件,但是拥有证书后我不知道如何配置它。另外,有一件事困扰着我。 Crawlera提供了不同的定价计划。基本的是C10,它允许10个并发请求。这是什么意思?我是否需要在settings.py中设置
CONCURRENT_REQUESTS=10
? 最佳答案
Configuration中有一个scrapy-crawlera documentation部分,它可以解决您的大部分疑问。