我想在他们在教程中使用的Dmoz网站上使用Scrapy,但我不只是通过使用“项目/字段”对来阅读书本URL(http://www.dmoz.org/Computers/Programming/Languages/Python/Books/)中的书本,我想创建一个可以读取所需值的Itemloader (名称,标题,说明)。
这是我的items.py文件:
from scrapy.item import Item, Field
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader.processor import Identity
class DmozItem(Item):
title = Field(
output_processor=Identity()
)
link = Field(
output_processor=Identity()
)
desc = Field(
output_processor=Identity()
)
class MainItemLoader(ItemLoader):
default_item_class = DmozItem
default_output_processor = Identity()
和我的蜘蛛文件:
import scrapy
from scrapy.spiders import Spider
from scrapy.loader import ItemLoader
from tutorial.items import MainItemLoader, DmozItem
from scrapy.selector import Selector
class DmozSpider(Spider):
name = 'dmoz'
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
]
def parse(self, response):
for sel in response.xpath('//div[@class="site-item "]/div[@class="title-and-desc"]'):
l = MainItemLoader(response=response)
l.add_xpath('title', '/a/div[@class="site-title"]/text()')
l.add_xpath('link', '/a/@href')
l.add_xpath('desc', '/div[@class="site-descr "]/text()')
yield l.load_item()
我尝试了许多不同的选择。我怀疑主要问题在于itemloader声明的“response = response”部分,但我无法对此进行详尽的说明。我应该看一下使用selector =“blah”语法的地方吗?
如果运行此命令,则会得到22个空括号的列表(正确的书籍数量)。如果将每条add_xpath行中的第一个斜杠更改为双斜杠,则会得到22个包含所有数据的相同列表(毫不奇怪)。
我该如何写,以便itemloader制作一个新列表,其中包含每本不同书籍的所需字段?
谢谢!
最佳答案
您需要让ItemLoader
在特定的选择器中工作,而不是response
:
l = MainItemLoader(selector=sel)
l.add_xpath('title', './a/div[@class="site-title"]/text()')
l.add_xpath('link', './a/@href')
l.add_xpath('desc', './div[@class="site-descr "]/text()')
yield l.load_item()
还要注意XPath表达式开头的点。