我使用Scrapy Framework制作了一个网络抓取工具,以从this website获取音乐会门票数据。我已经能够成功地从页面上每个票证内的元素中抓取数据,但价格只能通过单击“票证”按钮转到票证页面并从票证中提取票证价格来访问在页面上。
经过广泛的Google搜索,我发现Scrapy.js(基于Splash)可在Scrapy中用于与页面上的JavaScript交互(例如需要单击的按钮)。我已经看到了一些如何使用Splash与JavaScript交互的基本示例,但是没有一个示例具有Splash与Scrapy集成的功能(甚至在文档中也没有)。
我一直遵循以下格式:使用项目加载程序将抓取的元素存储在parse方法中,然后发出请求,该请求应该转到另一个链接并通过调用第二个parse方法来解析该页面中的html
(e.g. yield scrapy.Request(next_link, callback=self.parse_price)
但是,由于我将使用Scrapy js,因此此代码将有所更改。为了合并Scrapyjs,我正在考虑使用与此类似的函数:
function main(splash)
splash:go("http://example.com")
splash:wait(0.5)
local title = splash:evaljs("document.title")
return {title=title}
来自this site,但由于javascript无法直接在python程序内部编写,因此我什至将如何/在何处将这种功能合并到程序中,以便能够通过单击按钮并解析html来导航至下一页?我显然在网络抓取方面是新手,所以对您的任何帮助将不胜感激。蜘蛛的代码如下:
Concert_ticket_spider.py
from scrapy.contrib.spiders import CrawlSpider , Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from concert_comparator.items import ComparatorItem
bandname = raw_input("Enter a bandname \n")
vs_url = "http://www.vividseats.com/concerts/" + bandname + "-tickets.html"
class MySpider(CrawlSpider):
handle_httpstatus_list = [416]
name = 'comparator'
allowed_domains = ["www.vividseats.com"]
start_urls = [vs_url]
#rules = (Rule(LinkExtractor(allow=('/' + bandname + '-.*', )), callback='parse_price'))
# item = ComparatorItem()
tickets_list_xpath = './/*[@itemtype="http://schema.org/Event"]'
item_fields = {
'eventName' : './/*[@class="productionsEvent"]/text()',
'eventLocation' : './/*[@class = "productionsVenue"]/span[@itemprop = "name"]/text()',
'ticketsLink' : './/a/@href',
'eventDate' : './/*[@class = "productionsDate"]/text()',
'eventCity' : './/*[@class = "productionsVenue"]/span[@itemprop = "address"]/span[@itemprop = "addressLocality"]/text()',
'eventState' : './/*[@class = "productionsVenue"]/span[@itemprop = "address"]/span[@itemprop = "addressRegion"]/text()',
'eventTime' : './/*[@class = "productionsTime"]/text()'
}
item_fields2 = {
'ticketPrice' : '//*[@class="eventTickets lastChild"]/div/div/@data-origin-price]',
}
def parse_price(self, response):
l.add_xpath('ticketPrice','.//*[@class = "price"]/text()' )
yield l.load_item()
def parse(self, response):
"""
"""
selector = HtmlXPathSelector(response)
# iterate over tickets
for ticket in selector.select(self.tickets_list_xpath):
loader = XPathItemLoader(ComparatorItem(), selector=ticket)
# define loader
loader.default_input_processor = MapCompose(unicode.strip)
loader.default_output_processor = Join()
# iterate over fields and add xpaths to the loader
for field, xpath in self.item_fields.iteritems():
loader.add_xpath(field, xpath)
yield Request(vs_url, self.parse_result, meta= {
'splash': {
'args':{
#set rendering arguments here
'html' :1
# 'url' is prefilled from request url
},
#optional parameters
function main(splash)
splash:autoload("https://ajax.googleapis.com/ajax/libs/jquery/2.1.3/jquery.min.js")
splash:go(vs_url)
splash:runjs("$('#some-button').click()")
return splash:html()
end
}
})
for field, xpath in self.item_fields2.iteritems():
loader.add_xpath(field, xpath)
yield loader.load_item()
最佳答案
这里的关键点是scrapyjs
提供了configure所需的scrapyjs.SplashMiddleware
中间件。然后,中间件将处理每个具有 splash
meta key的请求。
仅供引用,我以前已经成功地将Scrapy
和scrapyjs
一起使用了。
关于javascript - 如何将scrapyjs函数集成到Scrapy项目中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31127334/