我目前正在使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不了解与C编程相关的任何知识,尽管我可以阅读源代码,但仅此而已。

我希望能够在hOCR文件中获得信心信息一词。我在网上找到了一些“答案”。从在设置文件中设置值到更改并重新编译源代码,不一而足。

我正在使用最新版本的Tesseract,如何从Java中获得信心(x_wconf)一词?

最佳答案

hOCR是HTML,因此您需要一个HTML解析器来提取所需的属性。尝试jsoupHtmlCleanerHTML Parser

09-25 20:34