urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数:在python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了

urlopen函数基本的使用:

爬虫学习笔记-urllib库-LMLPHP

url:请求的url

data:请求的data

返回值:返回值是一个 http.client.HTTPResponse对象,这个对象是一个类文件句柄对象

read(size)、readline、readlines以及getcode等方法

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

 urlretrieve函数:

这个函数可以方便的将网页上的一个文件保存到本地

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

urlencode函数:

用浏览器发送请求的时候,如果url中包含了中文或者其他特殊字符,那么浏览器会自动给我么编码。而如果使用代码发送请求,那么就必须手动的进行编码,这时候就应该使用urlencode函数来实现,urlencode可以把字典数据转换为URL编码的数据

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

 parse_qs函数:

可以将经过编码后的url参数进行解码

爬虫学习笔记-urllib库-LMLPHP

urlparse和urlsplit:

有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

爬虫学习笔记-urllib库-LMLPHP

urlparse和urlsplit基本上是一模一样,唯一不一样的是

urlparse多了一个params属性

url = "http://www.baidu.com/s;hello?wd=python&username=abc#1"
urlparse可以获取到hello,而urlsplit获取不到

爬虫学习笔记-urllib库-LMLPHP

05-06 12:34