我知道有lxml和beautifulsoup,但这对我的项目不起作用,因为我事先不知道我试图从中删除一篇文章的网站的html格式是什么。有没有类似于可读性的python类型模块能够很好地查找并返回文章的内容?
最佳答案
有可能使用PhantomJS(C++)或PyPhantomJS(Python)。
它们都是基于webkit的无头浏览器,您可以通过javascript完全控制它们。因为您可以从JavaScript控制它,所以我发现做一些事情(比如刮取文章的内容)非常容易。
PyPhantomJS还有一个插件系统,所以这绝对是一个优势。:)