性能对比
爬取方法 | 性 能 | 使用难度 | 安装难度 |
正则表达式 | 快 | 困难 | 简单(内置模块) |
BeautifulSoup | 慢 | 简单 | 简单 |
Lxml | 快 | 简单 | 相对困难 |
当网页结构简单并且想要避免额外依赖(不需要安装库),使用正则表达式更为合适。当需要爬取数据量较少时,使用较慢的BeautifulSoup也可以的。当数据量大时,需要追求效益时,Lxml时最好选择。