基本使用
来简单解释一下上文出现的几种标签含义:
这样的表格数据,就可以利用pandas模块里的read_html函数方便快捷地抓取。
实战部分
现在我们来抓取虎扑NBA球星的数据.登录网站并查看网页源码,可以确定这是一个静态网页并且含有HTML表格样式,同时网页后的数字为页数,所以直接构造一个循环进行抓取
https://nba.hupu.com/stats/players/pts/1
爬取后结果为
可以看到已经抓取了全部数据,只需要再进行数据清洗即可
这样我们就爬取了虎扑NBA球员的得分情况,同样也可以根据其他数据的URL去爬取投篮,三分,助攻等数据。
源代码与结果数据文件地址:
https://github.com/smilecoc/python_spider_allproject/tree/master/hupu_playersinfo_readhtml
本文分享自微信公众号 - Romi的杂货铺(gh_9bf9a95e00cb)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。