数据湖开发者社区

数据湖开发者社区

一、综合训练-爬取91看剧视频

    1.找到想要爬取的视频位置

    打开哲仁王后第一集视频,打开页面源代码,可看到视频m3u8链接。

    使用开发者工具可以看到其m3u8文件内容

    2.获取视频页面源代码。
    

    3.使用re解析从页面源代码中提取m3u8链接。

    4.下载m3u8文件
     

    5.解析m3u8文件。
  
                

二、selenium概念介绍

    Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
    我们要使用Selenium进行一些网页中的操作,还需要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。选择与当前使用的Chrome版本相同版本,若没有相同的版本号,则选择最接近的上一版本。将下载的驱动解压后保存在python解释器所在的文件夹中。
    测试驱动是否可用,使用selenium启动浏览器。
       

三、Selenium的操作及爬取拉钩信息。

    1.打开拉勾网。
          

    2.找到某个元素点击,这里以全国为例,复制其xpath地址。

    3.找到输入框,输入python,回车进行搜索,需要导入Keys。
      

    4.查找所要数据的位置,进行提取。
    (1)找到所有存放数据的<li>。

    (2)找到每条想要元素位置获得其xpath。


    (3)进行数据提取。

    5.窗口间切换,获取新窗口中内容。

    关闭子页面,回到主页面视角。
          

    6.处理下拉菜单,实战爬取艺恩数据的年度票房信息。

       

    7.使用超级鹰处理超级鹰登录验证码

    (1)完成注册登录,在用户中心查看软件ID,新注册账号需自己生成一个软件ID

    (2)下载示例代码,在开发文档中选择对应语言,我这里选python。

        

    (3)将代码及示例图片复制到所建项目中进行测试。
                      

    (4)使用超级鹰处理超级鹰登录验证码。


03-05 16:24