基本使用


来简单解释一下上文出现的几种标签含义:

这样的表格数据,就可以利用pandas模块里的read_html函数方便快捷地抓取。

实战部分


现在我们来抓取虎扑NBA球星的数据.登录网站并查看网页源码,可以确定这是一个静态网页并且含有HTML表格样式,同时网页后的数字为页数,所以直接构造一个循环进行抓取
https://nba.hupu.com/stats/players/pts/1


爬取后结果为

可以看到已经抓取了全部数据,只需要再进行数据清洗即可

这样我们就爬取了虎扑NBA球员的得分情况,同样也可以根据其他数据的URL去爬取投篮,三分,助攻等数据。

源代码与结果数据文件地址:
https://github.com/smilecoc/python_spider_allproject/tree/master/hupu_playersinfo_readhtml


利用Dataframe.read_html函数爬取表格型数据-LMLPHP






本文分享自微信公众号 - Romi的杂货铺(gh_9bf9a95e00cb)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

09-13 23:08