爬虫入门知识9点:


1、普通的内容爬取

2、保存爬取的图片、视频、文件、网页

3、普通模拟登陆

4、处理验证码登陆

5、抓取JS网站

6、全网爬虫

7、某个网站的站内所有目录爬虫

8、多线程

9、爬虫框架Scrapy


1、普通的内容爬取

最全爬虫入门资料-LMLPHP


2、保存爬取的图片、视频、文件、网页


#图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:

最全爬虫入门资料-LMLPHP


3、普通模拟登陆

最全爬虫入门资料-LMLPHP


4、处理验证码登录


#先把验证码图片下载下来保存,再人工读入:

最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP


5、抓取js网站

最全爬虫入门资料-LMLPHP


6、全网爬虫


#广度优先,模拟爬取队列:

最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP


7、某个网站的站内所有目录爬虫


#把缩写的站内网址还原:

最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP


8、多线程


#对列和线程的结合:

最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP最全爬虫入门资料-LMLPHP


9、爬虫框架Scrapy


items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典;


pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义;


spiders:定义自己的爬虫。


11-10 05:54
查看更多