我正在寻找一些工具,以获取不同页面(博客文章、杂志等)的干净HTML内容。基本思想是iOS Safary中的“Reader”是如何工作的。
This答案我可以肯定iOS Safary使用Readability进行内容解析。不幸的是,API不包含任何解析方法,而是保存书签并获取其内容,这对我来说不太合适。
另一个答案是here建议使用https://www.readability.com/api/content/v1/parser但对我不起作用。
对类似的服务有什么建议吗?
最佳答案
看看Tranquility。它是一个Firefox插件,因此您可以查看源代码。您可以下载XPI并将其解包。然后查看content/tanquirity.js和content/中的相关文件。