到目前为止,我们一直在使用 Scrapyd
service。它提供了一个很好的包装器,用于一个抓痒的项目及其蜘蛛,使它们可以通过HTTP API控制蜘蛛:
但是,最近,我注意到了另一个“新鲜”软件包 ScrapyRT
,根据项目描述,它听起来非常有前途,并且类似于Scrapyd
:
这个软件包是Scrapyd
的替代品吗?如果是,那么两者有什么区别?
最佳答案
他们没有很多共同点。如您所见,您必须将Spider部署到scrapyd,然后安排爬网。 scrapyd是在服务器上运行的独立服务,您可以在其中部署和运行所需的每个项目/蜘蛛。
使用ScrapyRT,您可以选择一个项目,然后cd
到该目录。然后您运行例如scrapyrt
,您就可以通过简单的(非常类似于scrapyd的)REST API在该项目上抓取蜘蛛。然后,您将检索到的项目作为JSON响应的一部分返回。
这是一个很好的主意,它看起来快速,精益且定义明确。另一方面,Scrapyd更成熟,更通用。
以下是一些主要区别:
url
参数,据我所知,该参数将覆盖与start_urls
相关的任何逻辑。 我要说的是,ScrapyRT和Scrapyd在这一点上并不十分重叠。当然,您永远不知道 future 会怎样。
关于python - ScrapyRT和Scrapyd,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37283531/