14.python案例：爬取电影天堂中所有电视剧信息

1.python案例：爬取电影天堂中所有电视剧信息
 #!/usr/bin/env python3

 # -*- coding: UTF-8 -*-

 '''=================================================

 @Project -> File   ：pywork -> day10_test04

 @IDE    ：PyCharm

 @Author ：xwl

 @Date   ：2019/10/10 14:35

 @Desc   ：

 =================================================='''

 import requests,pyperclip,time,sys,os,pymysql

 from lxml import etree

 HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}

 URL = 'https://www.dytt8.net'  # 电影天堂的主页（由于网站设置有问题，所以加了一个URL全局变量）

 ALL_DATA=[]

 # 清除剪切板中的内容

 def clean_up():

     # 利用os模块中的popen方法调用电脑cmd.exe清除剪切板内容

     # 用popen新建一个管道，然后用read()读取执行命令

     result=os.popen('C:\Windows\System32\cmd.exe /c "echo off | clip"')

     result.read()

 # 倒计时程序

 def countdown(num_time):

     for i in range(num_time,-1,-1):

         mystr = '倒计时' + str(i) + '秒开始!'

         print(mystr, end='')

         time.sleep(1)

         print('\b' * len(mystr), end='')

     print('倒计时结束！')

 # 复制网址

 def copy_url():

     clean_up()  # 调用clean_up函数清除剪切板中内容

     print('请从浏览器复制电影天堂网址！')

     time.sleep(10)

     print('*' * 50)

     url = pyperclip.paste()  # 将剪切板中的内容保存到变量中

     if url == '':

         print('未从浏览器获取到网址,请重新复制！')

         time.sleep(1)

         print('*' * 50)

         num = 20  # 倒计时时间设定

         print('请在{}内复制完成，否则程序将结束！'.format(num))

         time.sleep(1)

         print('*' * 50)

         countdown(num)  # 调用countdown倒计时函数

         url = pyperclip.paste()  # 将剪切板中的内容保存到变量中

         if url == '':  # 如果仍旧未复制，则退出程序

             sys.exit()

     return url

 # 解析网页工具

 def parse_tool(url):

     try:

         response = requests.get(url, headers=HEADERS)

         text = response.content.decode('gbk', errors='ignore')

     except Exception as a:

         print('网站无响应')

     html = etree.HTML(text)

     return html

 # 获取需要爬取的网址

 def get_url():

     url=copy_url()    # 为了调试程序方便，临时将此处复制网址程序禁用掉

     # url='https://www.dytt8.net/index.htm'   # 正式运行程序时，此处代码需要禁用掉，而应该用上面的代码调用函数

     return url

 # 解析网页信息

 def parse_url():

     # 解析电视剧网页信息

     def parse_tvUrl(title,url):

         print(title,url)    # 输出结果：华语电视剧 https://www.dytt8.net/html/tv/hytv/

         print('-'*30)

         # 提取华语电视剧网页共有几页的信息

         html1=parse_tool(url)

         option=html1.xpath('//div[@class="bd3r"]//div[@class="co_content8"]//select[@name="sldd"]/option[last()]/text()')[0]

         for i in range(1,int(option)+1):

             tv_list = []  # 将所有电视信息存入列表

             # 遍历网页底部每页的网址

             option_url='https://www.dytt8.net/html/tv/hytv/list_71_{}.html'.format(i)

             html2=parse_tool(option_url)

             href1s=html2.xpath('//div[@class="co_area2"]/div[@class="co_content8"]//table//td//a/@href')

             # print('数量：',len(href1s))  # 调试用

             print('第{}页'.format(i), '*' * 50)

             for index,j in enumerate(href1s,1): # 用enumerate按顺序遍历，并带序号

                 tv_dict = {}  # 将提取的电视名与下载地址保存在字典中

                 href1='https://www.dytt8.net'+j

                 html3=parse_tool(href1)

                 error=html3.xpath('//div[@align="center"]/div/text()')

                 if error!=[]:

                     print('网址有问题！')

                     continue

                 try:

                     tv_title=html3.xpath('//div[@class="co_area2"]/div[@class="title_all"]/h1/font[@color="#07519a"]/text()')[0]

                     # print(tv_title)  # 调试用

                     tv_dict['tv_title']=tv_title

                     # 用contains进行模糊匹配

                     tv_download=html3.xpath('//div[@id="Zoom"]//table//td//a/@*')

                     # print(tv_download)  # 调试用

                     tv_dict['tv_download']=tv_download

                 except Exception as a:

                     continue

                 tv_list.append(tv_dict)

                 # 添加数据爬取时的提示信息

                 str = '数据正在写入中'

                 for y in range(1,6):

                     print(str, end='')

                     str = '数据正在写入中'+'.'*y

                     time.sleep(0.1)

                     print('\b'*(len(str)),end='')

                 # print('计数',index) # 调试用

                 # print(tv_list) # 调试用

             for index,info in enumerate(tv_list,1):

                 tv_title=info['tv_title']

                 tv_download=info['tv_download']

                 for k,j in enumerate(tv_download,1):

                     m = '第{}集'.format(k)

                     download=j

                     save_data(i,index,tv_title,m,download)

             print('电视剧信息已写入数据库{}.'.format(i))

     # 解析电影网页信息

     def parse_movieUrl(title,url):

         print(title,url)    # 输出结果：2019新片精品 https://www.dytt8.net/html/gndy/dyzz/index.html

         print('-' * 30)

         print('爬取电影信息代码未完成，等待后续开发。')

     url=get_url()

     html = parse_tool(url)

     # response=requests.get(url,headers=HEADERS)

     # text=response.content.decode('gbk',errors='ignore')

     # html=etree.HTML(text)

     # 因为源代码中按下面的路径查找divs1列表中有两个元素，而我们只是需要爬取第一个元素中

     # 的内容，所以用list[0]，然后在对该元素进行xpath查找

     divs1=html.xpath('//div[@class="bd3r"]//div[@class="bd3rl"]')[0]

     divs=divs1.xpath('./div[@class="co_area2"]')

     tv_url={}

     movie_url={}

     for div in divs:

         # -------------提取电视剧分类--------------#

         # 将列表中的每一个元素提取出来，存入变量title

         main_title = div.xpath('./div[@class="title_all"]/p/strong/text()')[0]

         main_url=div.xpath('./div[@class="title_all"]/p/em/a/@href')[0]

         # 由于电影天堂网站有个问题，即日韩电视剧后面跟的是完整的网址，而其

         # 它的不是，所以需要进行一个判断操作

         if main_title=='华语电视剧':

             tv_url['main_title'] = main_title

             tv_url['main_url']=URL + main_url

         # -------------提取电影网址--------------#

         elif main_title=='2019新片精品':

             movie_url['movie_title']=main_title

             movie_url['main_url'] = URL + main_url

         else:

             continue

     # 调用电视剧解析函数解析网页信息

     parse_tvUrl(tv_url['main_title'],tv_url['main_url'])

     # 调用电影解析函数解析网页信息

     parse_movieUrl(movie_url['movie_title'],movie_url['main_url'])

 # 数据写入数据库

 def save_data(i,n,data1,m,data2):

     table_name = 'xwl_{}'.format(i) # 变量类型的数据库表名

     conn=pymysql.connect(host='localhost',user='root',

                          password='root',charset='utf8',port=3306)

     cursor=conn.cursor()

     try:

         # 创建一个名为xwl_test的数据库

         cursor.execute('create database if not exists xwl_test character set utf8;')

         cursor.execute('use xwl_test;')

         # 创建一个变量类型的数据库表名

         sql1="create table if not exists `%s`(序号 int,电视剧名称 char(255),集数 char(20),下载地址 char(255)) character set utf8" %(table_name)

         cursor.execute(sql1)

         # 向变量类型的数据库表名中写入数据

         sql2="insert into `%s`(序号,电视剧名称,集数,下载地址)" %(table_name) +" values(%s,%s,%s,%s)"

         cursor.execute(sql2,(n,data1,m,data2))

         conn.commit()

     except Exception as e:

         print('有部分数据写入出错')  # 这样就可以在数据写入出错时自动跳过，从而使代码可以继续跑下去

     finally:

         conn.close()

 #--------------代码调用主模块---------------#

 if __name__=='__main__':

     parse_url()
出现以下情况，说明已经成功写入：
14.python案例：爬取电影天堂中所有电视剧信息-LMLPHP