Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
4年前关闭。
Improve this question
我对使用OCR从简单文本中提取粗体和斜体字感兴趣。例如,如果我输入一个清晰的图像,像这样的文本:
“敏捷的棕色狐狸跳过了懒狗。”
我想要这样的输出:bold(“ brown”,“ jumps”),italic(“ lazy”)
我已经考虑过使用OCRopus或Tesseract进行此操作,但是文档不多,我无法确定是否可行,或者无法解决。
实际上,您可以从here.亲自查看
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
4年前关闭。
Improve this question
我对使用OCR从简单文本中提取粗体和斜体字感兴趣。例如,如果我输入一个清晰的图像,像这样的文本:
“敏捷的棕色狐狸跳过了懒狗。”
我想要这样的输出:bold(“ brown”,“ jumps”),italic(“ lazy”)
我已经考虑过使用OCRopus或Tesseract进行此操作,但是文档不多,我无法确定是否可行,或者无法解决。
最佳答案
Tesseract 3.0.1的主干中有此功能。新类已添加到API-ResultIterator
中,该类具有您感兴趣的以下功能:
WordFontAttributes(bool* is_bold,
bool* is_italic,
bool* is_underlined,
bool* is_monospace,
bool* is_serif,
bool* is_smallcaps,
int* pointsize,
int* font_id).
实际上,您可以从here.亲自查看
07-26 09:05