beautiful soup是一个可以从html或者xml文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。
beautiful soup 会帮你节省数小时甚至数天的工作时间。
beautiful soup的强大之处在于他能很方便地提取html或者xml标签中的内容。
beautiful soup是python的一个库,最主要的功能是从网页抓取数据。
beautiful soup 的官方解释如下:
beautiful soup 提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。他是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个万丈额应用程序。
beautiful soup 自动将输入文档转换为unicode编码,输出文档转换为utf-8编码,你不需要考虑编码方式,除非文档没有一个指定的额编码方式,这时,beautiful soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
beautiful soup 已经成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或者强劲的速度。