本文介绍了如何提高OCR准确率?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有 2 张图片,如下所示.A.png 被 tesseract 完美读取,但 B.png 的准确性非常差,即使 B.png 与 A.png 相似.我怎样才能提高准确性?我不知道从哪里开始调试?

  • A.png
  • B.png
  • 运行 OCR

# tesseract -v超立方体 4.1.1-rc2-22-g08899
# tesseract A.png stdout -l jpn --psm 6警告:分辨率 0 dpi 无效.使用 70 代替.第三期决算公告令和2年2月7日大阪市中央区南新町一丁目3番10号株式会社 Link_Mobile代表取缔役佐々木勉贷借対照表の要旨(平成31年3月31日现在}
# tesseract B.png stdout -l jpn --psm 6警告:分辨率 0 dpi 无效.使用 70 代替..人加计区三6番12号中野駅前ビル 5 |、是人兆瓦にて贷借対照表の要旨(令和元年11月30日现在}

更新 1

是否使用相同的扫描仪以相同的分辨率扫描?

是的.原来包含在同一个 PDF 中的图像被剪掉了.

在执行 OCR 之前,您是否利用 Tesseract 公开的任何 API 来预处理图像?

没有.我不知道.我正在检查它.

解决方案

改进了.我阅读了

  • 运行 OCR

# tesseract B2.png stdout -l jpn --psm 6第54期决算公告_令和2年1月29日东京都中野区中野三丁目36番12号中野駅 前ビル 5 F株式会社コーエーテクニカ代表取缔役小空_修贷借対照表の要旨(令和元年11月30日现在)

I have 2 images like shown below. A.png is perfectly read by tesseract but B.png is terribly bad accuracy even though the B.png is similar to A.png. How can I improve the accuracy? I have no idea where to start debugging?

  • A.png
  • B.png
  • Run OCR

# tesseract -v
tesseract 4.1.1-rc2-22-g08899
# tesseract A.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
第 3 期 決算 公告 令 和 2 年 2 月 7 日
大 阪 市 中 央 区 南 新町 一 丁目 3 番 10 号
株 式 会 社 Link_Mobile

代表 取締 役 佐々 木 勉

貸借 対照 表 の 要旨 (平成 31 年 3 月 31 日 現在 }
# tesseract B.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
。 人 加計
区 三 6 番 12 号
中 野 駅 前 ビル 5 | 、
am 人 mw
に て
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 }


Update 1

Yes. The images that were originally included in the same PDF were cut out.

No. I did not know that. I am checking now about it.

解决方案

It improved. I read "Tesseract documentation" and rescaled the image.

  • Rescaled image
  • Run OCR

# tesseract B2.png stdout -l jpn --psm 6
第 54 期 決 算 公 告 _ 令 和 2 年 1 月 29 日
東京 都 中 野 区 中 野 三 丁目 36 番 12 号
中 野 駅 前 ビル 5 F
株 式 会 社 コ ー エ ー テ クニ カ
代表 取締 役 小 空 _ 修
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 )

这篇关于如何提高OCR准确率?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

07-23 11:06
查看更多