1. 一次简单的网页访问
urllib 是一个标准的python库(意味着不需要安装任何附件的东西来运行这个demo),包含了通过网络请求数据的方法,处理cookies,甚至更改metadata比如headers和用户代理。
urlopen 这个方法用来通过网络访问远程数据,就是发送一个get请求到制定的url地址。
from urllib.request import urlopen
html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())
2. BeautifulSoup的简单介绍
这个模块是一个html/xml解析器,它可以很好的处理不规范标记并生成剖析树。
I installing BeautifulSoup
linux:apt-get install python-bs4 或者 pip install beautifulsoup4
II 在这个模块(bs4)中BeautifulSoup是最常用的
from urllib.request import urlopen
from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page1.html")
bsobj = BeautifulSoup(html.read(), 'html.parser')
print(bsobj.h1) #输出:<h1>An Interesting Title</h1>
3. 异常处理
I 在服务上没有找到请求的地址 一个http error错误会被返回 这个错误可能是 404 page not found 500 Internal server Error 这些所有的情况urlopen方法会抛出异常HTTPError
try:
html = urlopen("http://www.pythonscraping.com/exercises/exercise1.html")
except HTTPError as e:
print(e)
#return null,break or do some other 'plan B'
else:
#program continues
II 服务没有找到,urlopen会返回None
if html is None:
print("URL is not found")
else:
#program continues
一个捕获各种异常的写法:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):
try:
html = urlopen(url)
except HTTPError as e:
return None
try:
bsObj = BeautifulSoup(html.read())
title = bsObj.body.h1
except AttributeError as e:
return None
return title
title = getTitle("http://www.pythonscraping.com/exercises/exercise1.html")
if title == None:
print("Title could not be found")
else:
print(title)