执行这样的脚本时,有什么方法可以查看spider的parse函数的返回数据?

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log, signals
from testspiders.spiders.followall import FollowAllSpider

spider = FollowAllSpider(domain='scrapinghub.com')
crawler = Crawler(Settings())
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
crawler.stats
#log.start()
reactor.run()

我禁用日志以查看蜘蛛中的打印消息,但启用日志后,返回数据也不显示。

蜘蛛解析函数的代码返回一个简单的字符串。

我如何获得这些数据?我尝试打印“reactor.run”结果但总是“无”

最佳答案

这是我发现获取收集物品的方式:

items = []
def add_item(item):
    items.append(item)

crawler.signals.connect(add_item, signals.item_passed)

我在链接的问题中给出了我的原始答案,并提供了更多细节:
https://stackoverflow.com/a/23892650/2730032

关于python - 如何通过外部脚本使用scrapy获取spider返回数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19003878/

10-12 18:47