我可以用一个简单的命令就可以抓取蜘蛛
scrapy crawl custom_spider -a input_val=5 -a input_val2=6
其中input_valinput_val2是我传递给蜘蛛的值

并且上面的方法很好用..

但是,在安排带有scrapyd的蜘蛛时

运行

curl http://localhost:6800/schedule.json -d project=crawler -d input_val=5 -d input_val2=6 -d spider=custom_spider

引发错误
spider = cls(*args, **kwargs)
    exceptions.TypeError: __init__() got an unexpected keyword argument '_job'

我该如何工作?

编辑
这是:在我的初始值设定项中:
def __init__(self,input_val=None, input_val2=None, *args, **kwargs):
        self.input_val = input_val
        self.input_val2 = input_val2
        super(CustomSpider, self).__init__(*args, **kwargs)

最佳答案

确保在您的Spider中支持任意关键字参数,并使用__init__ like shown in the docs for spider arguments调用super():

class MySpider(scrapy.Spider):
    name = 'myspider'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs) # <- important
        self.category = category

Scrapyd提供作业ID作为传递给Spider的_job参数(请参阅code here)。

关于python - 如何将参数从scrapyd传递给scrapy爬虫?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32223955/

10-09 18:55