我目前正在使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不了解与C编程相关的任何知识,尽管我可以阅读源代码,但仅此而已。
我希望能够在hOCR文件中获得信心信息一词。我在网上找到了一些“答案”。从在设置文件中设置值到更改并重新编译源代码,不一而足。
我正在使用最新版本的Tesseract,如何从Java中获得信心(x_wconf)一词?
最佳答案
hOCR是HTML,因此您需要一个HTML解析器来提取所需的属性。尝试jsoup,HtmlCleaner或HTML Parser。