scrapy之基础概念与用法
框架
所谓的框架就是一个项目的半成品。也可以说成是一个已经被集成了各种功能(高性能异步下载、队列、分布式、解析、持久化等)的具有很强通用性的项目模板。
安装
Linux:
pip3 install scrapy // pip3具体看自己的pip是pip3
windows:
a. 下载安装wheel
pip3 install wheel
b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
c. 进入下载文件的目录,下载那安装Twisted
pip3 install Twisted-17.1.0-cp35-cp35m-win_amd64.whl # cp35为python的版本
d. 下载安装pywin32
pip3 install pywin32
e. 下载安装scrapy
pip install scrapy
使用
创建工程
scrapy startproject xxoo # xxoo为项目工程名称
创建爬虫文件
需要先切换到工程项目的目录中
cd xxoo # xxoo为项目名称
然后创建爬虫文件
scrapy genspider ooxx www.xxoo.com # ooxx为爬虫文件的名称, www.xxoo.com为起始URL
爬虫文件会自动创建到spiders文件夹中。
执行完上边的命令,会产生一个项目工程,文件结构入下:
-- xxoo
05-02 09:02