Closed. This question needs to be more focused。它当前不接受答案。












想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。

4年前关闭。



Improve this question





我对使用OCR从简单文本中提取粗体和斜体字感兴趣。例如,如果我输入一个清晰的图像,像这样的文本:

“敏捷的棕色狐狸跳过了懒狗。”

我想要这样的输出:bold(“ brown”,“ jumps”),italic(“ lazy”)

我已经考虑过使用OCRopus或Tesseract进行此操作,但是文档不多,我无法确定是否可行,或者无法解决。

最佳答案

Tesseract 3.0.1的主干中有此功能。新类已添加到API-ResultIterator中,该类具有您感兴趣的以下功能:

 WordFontAttributes(bool* is_bold,
                    bool* is_italic,
                    bool* is_underlined,
                    bool* is_monospace,
                    bool* is_serif,
                    bool* is_smallcaps,
                    int* pointsize,
                    int* font_id).


实际上,您可以从here.亲自查看

07-26 09:05