我希望安排蜘蛛在爬网完成后的1小时内再次运行。在我的代码中,spider_closed方法在爬网结束后正在调用。现在,如何通过此方法再次运行蜘蛛。或是否有任何可用的设置来安排刮板蜘蛛。

这是我的基本蜘蛛代码。

import scrapy
import codecs
from a2i.items import A2iItem
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.conf import settings
from scrapy.crawler import CrawlerProcess
from scrapy import signals
from scrapy.utils.project import get_project_settings
from scrapy.xlib.pydispatch import dispatcher


class A2iSpider(scrapy.Spider):
    name = "notice"
    f = open("urls.txt")
    start_urls = [url.strip() for url in f.readlines()]
    f.close()
    allowed_domains = ["prothom-alo.com"]

    def __init__(self):
        dispatcher.connect(self.spider_closed, signals.spider_closed)

    def parse(self, response):

        for href in response.css("a::attr('href')"):
            url = response.urljoin(href.extract())
            print "*"*70
            print url
            print "\n\n"
            yield scrapy.Request(url, callback=self.parse_page,meta={'depth':2,'url' : url})


    def parse_page(self, response):
        filename = "response.txt"
        depth = response.meta['depth']

        with open(filename, 'a') as f:
            f.write(str(depth))
            f.write("\n")
            f.write(response.meta['url'])
            f.write("\n")

        for href in response.css("a::attr('href')"):
            url = response.urljoin(href.extract())
            yield scrapy.Request(url, callback=self.parse_page,meta={'depth':depth+1,'url' : url})


    def spider_closed(self, spider):
        print "$"*2000

最佳答案

您可以使用cron

crontab -e以创建计划并以root身份运行脚本,或者
crontab -u [user] -e以特定用户身份运行。

在底部,您可以添加
0 * * * * cd /path/to/your/scrapy && scrapy crawl [yourScrapy] >> /path/to/log/scrapy_log.log

0 * * * *使脚本每小时运行一次,相信您可以在线找到有关设置的更多详细信息。

关于scrapy - 一段时间后如何安排刮scrap的蜘蛛爬行?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37904173/

10-12 20:37