我的目的是从网页中提取结构化数据。我正在使用this SO question中提到的代码。我在Spring项目中使用Apache Any23 CLI库依赖项。
通过使用此工具,我可以从网页中提取HTML5微数据(Schema.org)。但是,我无法提取网页中存在的JSON-LD格式。当我检查Apache Any23的文档时,它支持JSON-LD格式。找不到任何进一步的文档。
最佳答案
通常,如果您使用new Any23()
创建一个新的Any23提取器,则应立即使用。如果使用像Any23(String... extractorNames)
这样的其他构造函数,则必须确保为嵌入的JSON LD添加了正确的构造函数"html-embedded-jsonld"
。
现在,如果提取过程中存在任何错误,Any23会将其静默删除。 (太好了,我知道!)
我发现可以在org.apache.any23.extractorExtractionResultImpl
方法notifyIssue
中设置断点。这样,您也许可以找到问题的更详细原因。