scrapy中重要的两个类是什么?

Requests、Response

什么是Requests?

网页下载

有哪些参数?

url

callback

headers           # 头部信息

cookie                             # 会自带cookie

meta                               # request和response中添加信息

encoding                        # 默认utf8,可自定义添加

priority                           # 让某些URL优先

dont_filter                      # 让request不被过滤掉

errback                           # 网页404,错误处理函数

什么是response类?

  下载后返回的页面信息

有哪些参数?

url                               # 当前网页URL

status                          # 返回网页的状态码

header                        # 服务器返回的header

body                           # 下载的网页内容

request                       # 之前yield出去的request

有哪些子类?

respones.http.HtmlResponse

HtmlResponse类有两个方法?

  xpath方法

   css方法

    完全继承TextResponse

调用selector中xpath、css方法

spider产生requests,yield给engine,下载器下载request获得response,交给engine,engine交给spider

05-11 20:01
查看更多