我的目的是从网页中提取结构化数据。我正在使用this SO question中提到的代码。我在Spring项目中使用Apache Any23 CLI库依赖项。

通过使用此工具,我可以从网页中提取HTML5微数据(Schema.org)。但是,我无法提取网页中存在的JSON-LD格式。当我检查Apache Any23的文档时,它支持JSON-LD格式。找不到任何进一步的文档。

最佳答案

通常,如果您使用new Any23()创建一个新的Any23提取器,则应立即使用。如果使用像Any23(String... extractorNames)这样的其他构造函数,则必须确保为嵌入的JSON LD添加了正确的构造函数"html-embedded-jsonld"

现在,如果提取过程中存在任何错误,Any23会将其静默删除。 (太好了,我知道!)

我发现可以在org.apache.any23.extractorExtractionResultImpl方法notifyIssue中设置断点。这样,您也许可以找到问题的更详细原因。

08-25 20:35