我正在使用scrapy爬行我的网站http://www.cseblog.com
我的蜘蛛如下:
from scrapy.spider import BaseSpider
from bs4 import BeautifulSoup ## This is BeautifulSoup4
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from blogscraper.items import BlogArticle ## This is for saving data. Probably insignificant.
class BlogArticleSpider(BaseSpider):
name = "blogscraper"
allowed_domains = ["cseblog.com"]
start_urls = [
"http://www.cseblog.com/",
]
rules = (
Rule(SgmlLinkExtractor(allow=('\d+/\d+/*"', ), deny=( ))),
)
def parse(self, response):
site = BeautifulSoup(response.body_as_unicode())
items = []
item = BlogArticle()
item['title'] = site.find("h3" , {"class": "post-title" } ).text.strip()
item['link'] = site.find("h3" , {"class": "post-title" } ).a.attrs['href']
item['text'] = site.find("div" , {"class": "post-body" } )
items.append(item)
return items
我在哪里指定它需要爬网该类型的所有链接
http://www.cseblog.com/{d+}/{d+}/{*}.html和
http://www.cseblog.com/search/{*}
递归地
但是从
http://www.cseblog.com/{d+}/{d+}/{*}.html
最佳答案
您必须创建两个规则或一个告诉scrapy允许这些类型的url。基本上你希望规则列表是这样的
rules = (
Rule(SgmlLinkExtractor(allow=('http://www.cseblog.com/{d+}/{d+}/{*}.html', ), deny=( )),call_back ='parse_save' ),
Rule(SgmlLinkExtractor(allow=('http://www.cseblog.com/search/{*}', ), deny=( )),,call_back = 'parse_only' ))
顺便说一句,除非要重写基类中的方法,否则应该使用爬网蜘蛛并重命名解析方法名。
这两种链接类型都有不同的回调,实际上,您可以决定要保存哪些处理过的页面数据。而不是一次回调,然后再次检查response.url。