简介
首先打开相关网页(https://bj.lianjia.com/xiaoqu/)。
注意:本博客的代码适用于爬取某个城市的小区房价信息。如需要爬取其他信息,可修改代码,链家的数据获取的基本逻辑都差不多。
效果展示
这是我之前在我CSDN博客(https://blog.csdn.net/Leaze932822995/article/details/108196379)上写的效果,当时还没添加查询POI数据和写入CSV的功能。
然后下面这个是后来修改完善后的导出效果。其中A-D列来源于链家,E到H列来源于百度地图。
分析网页
分析网页建构爬虫思路最重要的部分。对网页进行分析可以举一反三,不光可以获取本文主要谈论的小区房价信息,还可以自行拓展二手房、租房之类的房价信息。
首先,用谷歌浏览器(最好是谷歌浏览器)打开北京链家小区信息(也可以打开其他城市的,这里用北京做个栗子)(https://bj.lianjia.com/xiaoqu/)。在这个页面上可以看到我们要爬取的信息,这次主要获取的有小区名、小区位置、房价。
进入页面后Ctrl+U或者右键查看网页源代码,在源代码界面Ctrl+F搜索小区名(也可以搜索其他的关键字信息)定位到相关的代码处。经过简单的目视观察,我们就可以定位到我们所需要的所有信息(链家的数据还是蛮好爬取的……)。
在Python中获取该页面所有的源代码文本信息的代码如下,这里用到了requests库。下面代码中的变量html里面装的就是该页面的所有源代码。
然后在网页中把我们要获取的数据的前后的代码块复制一下,按照正则表达式(用到re库)的规则整理一下。下面这个代码的意思就是在html(也就是源代码)中通过我们所需要的数据的前后代码定位到我们所需要的数据,并且获取数据,分别传入变量name、price、district、bizcircle中。
好了,到这里,基本的分析和数据的获取代码已经完成了,接下来就是要整理获取到的数据,并且实现批量获取。
代码思路
前文中网页的分析已经完成了,核心的爬取思路有了。
接下来还需要完成的工作有:
1. 实现爬虫的自动化,比如说自动翻页什么的。因为我们总不能就爬取一页吧,一页好像才30条房价信息……
2. 把爬取到的n个页面整合到一起。
3. 通过小区名字查询POI数据。
4. 把查询到的POI数据和原来的房价数据整合到一起。
5. 把房价数据和POI数据写入csv表中。
先把需要的库导入。
首先我们根据前文分析页面总结的代码先实现单页数据的爬取,并且把它封装成一个函数。
该函数的思路是:传入链家某城市的小区房价的某个页面的url,读取该页面的源代码并且传入变量html,用正则表达式定位并且获取我们需要的数据并将其传入变量name、price、district、bizcircle中(这里传入的是列表形式),然后将其整理为字典。
第二步是通过第一步的函数查询n个页面的数据(遍历),并且将n个页面获取的数据整合为一个字典。
先写一个合并两个字典的函数放在这,等下用得着。
然后回到原网页看看链家小区房价信息页面的翻页规则,发现只只需要在原来url后+pg+数字就能翻页。很简单,现在通过遍历的思路,写一个能够生成输入起始页和终止页之间所有url的函数即可,然后再把合并字典的函数放进去,就可以实现自动翻页并且整合房价数据。
到上面,基本的房价信息已经获取完毕了。接下来第三步就是要通过小区的名字查询POI数据。
我这里用的是百度的api接口,当然高德还是腾讯的也可以用,但是我还是百度的用得比较多,所以这里我就说下百度的方法。
在之前,需要先获取百度地图开放平台(http://lbsyun.baidu.com/)的ak密钥,就是点进我的应用-创建应用。因为我很早之前获取的,具体的获取流程我也不太记得了,如果找不到获取可以自己上百度谷歌一下。
获取了ak后,就可以通过百度地图的接口查询POI数据了,下面的函数也就能实现了。
这个函数的意思是传入POI关键字参数Keyword和地区参数District,在地区District中搜索和Keyword相关的POI数据。在某些情况下的POI获取中,我们要的是n个与关键字相关的POI数据(比如我在北京市范围内搜索“银行”),但是由于在这个任务中我们是要检索特定的小区,那检索出来的POI数据基本是第一个没跑了(我还是相信百度……(主要是懒))。回到这个函数的代码,输入关键字和地区参数后,这个函数会返回名字name、地区Region、经度Longitude、纬度Latitude。
第四步就是将所获取到的POI数据添加到原来的房价字典里。这一步的函数将上面的所有函数整合在一起。
终于来到最后一步,第五步!这一步就是把所有数据写入csv存起来。写入csv的好处就是以后需要的话不用重新爬取,并且如果要做地理分析还是什么的话可以直接导入ArcGIS。
这个函数就是添加了第四步的功能,并且用遍历字典的方法写入csv里(写入csv的方法很简单这里就不多说)。为了监测爬虫的情况,我这里import了datetime库看爬虫所需时间。
接下来必不可少地要说说启动方法。我举个栗子,以北京为例,爬取1到20页的房价信息。
然后我再举个栗子,以哈尔滨为例,爬取50到60页的房价信息。
完整代码
以下是乞讨内容
本文分享自微信公众号 - 气象学家(Meteorologist2019)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。