我是新手,不知疲倦。阅读并开发了我的搜寻器,该搜寻器可以搜寻新闻网站并向我提供所有来自该新闻网站的新闻文章。如果我仅通过以下方式运行搜寻器
scrapy crawl project name -o something.txt
它可以让我正确地将所有抓取的数据保存在something.txt中。
现在,我尝试使用scrapyd在localhost:6800上部署我的scrapy爬虫项目。
然后我使用
curl http://localhost:6800/schedule.json -d project=tutorial -d spider=dmoz_spider
它在命令行上给了我这个
{"status": "ok", "jobid": "545dfcf092de11e3ad8b0013d43164b8"}
我认为这是正确的,我什至可以在localhost:6800的UI View 上将我的狂热视为一项工作
但是,我在哪里可以找到我以前用来收集的我的搜寻器抓取的数据。
请帮忙....
这是我的搜寻器代码
class DmozSpider(Spider):
name = "dmoz"
allowed_domains = ["timesofindia.com"]
start_urls = ["http://mobiletoi.timesofindia.com/htmldbtoi/TOIPU/20140206/TOIPU_articles__20140206.html"]
def parse(self, response):
sel = Selector(response)
torrent = DmozItem()
items=[]
links = sel.xpath('//div[@class="gapleftm"]/ul[@class="content"]/li')
sel.xpath("//div[@class='gapleftm']/ul[@class='content']/li/b/a/stname/text()").extract()
sel.xpath("//div[@class='gapleftm']/ul[@class='content']/li/b/a/@href").extract()
for ti in sel.xpath("//a[@class='pda']/text()").extract():
yield DmozItem(title=ti)
for url in sel.xpath("//a[@class='pda']/@href").extract():
itemLink = urlparse.urljoin(response.url, url)
yield DmozItem(link=url)
yield Request(itemLink, callback=self.my_parse)
def my_parse(self, response):
sel = Selector(response)
self.log('A response from my_parse just arrived!')
for head in sel.xpath("//b[@class='pda']/text()").extract():
yield DmozItem(heading=head)
for text in sel.xpath("//a[@class='pda']/text()").extract():
yield DmozItem(desc=text)
for url_desc in sel.xpath("//a[@class='pda']/@href").extract():
itemLinkDesc = urlparse.urljoin(response.url, url_desc)
yield DmozItem(link=url_desc)
yield Request(itemLinkDesc, callback=self.my_parse_desc)
def my_parse_desc(self, response):
sel = Selector(response)
self.log('ENTERED ITERATION OF MY_PARSE_DESC!')
for bo in sel.xpath("//font[@class='pda']/text()").extract():
yield DmozItem(body=bo)
最佳答案
使用提要导出时,您可以使用URI(通过FEED_URI
设置)定义将提要存储在何处。提要导出支持URI方案定义的多种存储后端类型。
curl http://localhost:6800/schedule.json -d project=tutorial -d spider=dmoz_spider -d setting=FEED_URI=file:///path/to/output.json
关于curl - Scrapyd:使用scrapyd安排搜寻器的输出后,我在哪里可以看到它的输出,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/21694051/