一、综合训练-爬取91看剧视频
1.找到想要爬取的视频位置
打开哲仁王后第一集视频,打开页面源代码,可看到视频m3u8链接。
使用开发者工具可以看到其m3u8文件内容
2.获取视频页面源代码。
3.使用re解析从页面源代码中提取m3u8链接。
4.下载m3u8文件
5.解析m3u8文件。
二、selenium概念介绍
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
我们要使用Selenium进行一些网页中的操作,还需要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。选择与当前使用的Chrome版本相同版本,若没有相同的版本号,则选择最接近的上一版本。将下载的驱动解压后保存在python解释器所在的文件夹中。
测试驱动是否可用,使用selenium启动浏览器。
三、Selenium的操作及爬取拉钩信息。
1.打开拉勾网。
2.找到某个元素点击,这里以全国为例,复制其xpath地址。
3.找到输入框,输入python,回车进行搜索,需要导入Keys。
4.查找所要数据的位置,进行提取。
(1)找到所有存放数据的<li>。
(2)找到每条想要元素位置获得其xpath。
(3)进行数据提取。
5.窗口间切换,获取新窗口中内容。
关闭子页面,回到主页面视角。
6.处理下拉菜单,实战爬取艺恩数据的年度票房信息。
7.使用超级鹰处理超级鹰登录验证码
(1)完成注册登录,在用户中心查看软件ID,新注册账号需自己生成一个软件ID
(2)下载示例代码,在开发文档中选择对应语言,我这里选python。
(3)将代码及示例图片复制到所建项目中进行测试。
(4)使用超级鹰处理超级鹰登录验证码。