Python爬虫简介(来源于维基百科):

简单点书,python爬虫就是一个机械化的为你查询网页内容,并且根据你制定的规则返回你需要的资源的一类程序,也是目前大数据常用的一种方式。

代码如下:

from urllib.request import urlopenfrom bs4 import BeautifulSoup

html = urlopen("http://www.jianshu.com")
bsObj = BeautifulSoup(html)
print(bsObj.h1)
nameList=bsObj.findAll("h4",{"class":"title"})for name in nameList:
       print(name.get_text())

当然,在此之前,你需要在linux上安装了python3 ,最好是3.5 这样才能保证不出错误,然后我假设是一个安装了ubuntu 16.04 的用户,你现在只需要按照下面的输入代码,就差不多了:

sudo apt-get update

更新你的软件源

sudo apt-get install python3-pip

下载python库,包文件安装工具

pip3 install bs4

下载目前最流行的HTML解析工具之一的BeautifulSoup .

然后,新建一个.py后缀的新文件,写入上述的代码,然后执行,这里是用的bs2.
.py作为文件名,所以执行下述命令,看看会发生啥~~!!

python3 bs2.py >bs.txt

Python爬虫入门-LMLPHP

执行文件

OK,现在可以查看结果了 cat bs.txt 对了,上面那个>的意思是把结果写进后面的文件

Python爬虫入门-LMLPHP

首页的显示

更改查找规则:

from urllib.request import urlopenfrom bs4 import BeautifulSoup

html = urlopen("http://www.jianshu.com")
bsObj = BeautifulSoup(html)
print(bsObj.h1)
nameList=bsObj.findAll("li",{"class":"have-img"})for name in nameList:
       print(name.get_text())

Python爬虫入门-LMLPHP

多了不少东西~~~

由于这样会对简书服务器造成负载,所以希望大家克制一下,不要过多的爬。温柔以待简书


长按二维码识别关注,您的支持是我们最大的动力。

公众号:测试梦工厂

QQ一群:300897805

  Python爬虫入门-LMLPHP

05-08 15:02