多线程爬取书趣阁小说网小说

一、爬取流程分析

如下图所示,以书趣阁小说网的其中一篇小说《斗破之无上之境》为例,目标是爬取该小说的所有章节内容,并把内容存储到一个txt文件中。
多线程爬取书趣阁小说网小说-LMLPHP
首先,打开浏览器的开发者工具,刷新页面进行抓包,抓到了如下数据包:
多线程爬取书趣阁小说网小说-LMLPHP
我们需要的数据是每个章节的名称和详情页url,可以发现数据均在第一个数据包中(40247/)。接下来,使用requests模块向这个数据包的地址发送请求,携带请求头headers,经测试,最好再多携带一个cookie参数。然后使用xpath表达式解析数据,关键代码如下:

r = requests.get(index_url, headers=headers)
06-21 09:47