Python爬虫简介(来源于维基百科):
简单点书,python爬虫就是一个机械化的为你查询网页内容,并且根据你制定的规则返回你需要的资源的一类程序,也是目前大数据常用的一种方式。
代码如下:
from urllib.request import urlopenfrom bs4 import BeautifulSoup
html = urlopen("http://www.jianshu.com")
bsObj = BeautifulSoup(html)
print(bsObj.h1)
nameList=bsObj.findAll("h4",{"class":"title"})for name in nameList:
print(name.get_text())
当然,在此之前,你需要在linux上安装了python3 ,最好是3.5 这样才能保证不出错误,然后我假设是一个安装了ubuntu 16.04 的用户,你现在只需要按照下面的输入代码,就差不多了:
sudo apt-get update
更新你的软件源
sudo apt-get install python3-pip
下载python库,包文件安装工具
pip3 install bs4
下载目前最流行的HTML解析工具之一的BeautifulSoup .
然后,新建一个.py后缀的新文件,写入上述的代码,然后执行,这里是用的bs2.
.py作为文件名,所以执行下述命令,看看会发生啥~~!!
python3 bs2.py >bs.txt
执行文件
OK,现在可以查看结果了 cat bs.txt
对了,上面那个>的意思是把结果写进后面的文件
首页的显示
更改查找规则:
from urllib.request import urlopenfrom bs4 import BeautifulSoup
html = urlopen("http://www.jianshu.com")
bsObj = BeautifulSoup(html)
print(bsObj.h1)
nameList=bsObj.findAll("li",{"class":"have-img"})for name in nameList:
print(name.get_text())
多了不少东西~~~
由于这样会对简书服务器造成负载,所以希望大家克制一下,不要过多的爬。温柔以待简书
长按二维码识别关注,您的支持是我们最大的动力。
公众号:测试梦工厂
QQ一群:300897805