Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 Stack Overflow 的 on-topic

2年前关闭。



Improve this question




我正在创建一个桌面/winform 应用程序,它读取 tif/pdf 应付发票并提取所有发票信息以存储到数据库中。

我可以使用 OCR(ocr 特定图像区域)读取标准条码(二维码、Code39 等)和一些应付发票的标准字段(发票日期、公司名称、地址),但无法正确捕获行项目、金额.

我分两个阶段提取信息:
1.根据模板读取特定区域(用户映射区域
特定领域)
2.OCR整页和搜索应付
发票标准字段名称和值

我有以下 3 种方法的想法:
1. 为一种发票创建模板并处理所有发票。
2. 基于神经网络的引擎,需要使用样本数据进行训练才能基于模式工作。
3.表单处理,一种OMR。 OCR 查看与表单上放置的字段完全相同的坐标(在表单设计期间)

问题:
如何使用OCR或一些智能阅读器提取应付发票?
主要是我寻找一些算法(C# + OCR 引擎)/应付发票捕获的哲学,但引用一些具有相同功能或可靠的商业产品的 SDK 也会有帮助。

我在谷歌上搜索并发现 Abbyy FlexiCapture Engine、IRIS Capture & Extract 有点有希望,但主要是基于模板或培训。他们声称不需要模板或培训,但没有什么看起来是 100 自动捕获的。

请引用一些产品(至少免费试用)、SDK 或示例/样本。

最佳答案

当然,到了 2018 年,情况有所改善。让我概括一下今天的主要方法:

  • 仍然是一个原始的 OCR 引擎(tesseract、Abbyy、Google OCR 等)和正则表达式(对于一些非常有限的用例,这可能仍然可以正常工作)
  • Abbyy FlexiCapture Engine - 仍然很强大,但仍然基于模板,如果您愿意为每种特定发票格式定义一个新模板
  • Rossum Elis (发票)、 TagGun (收据)、... - 基于预先训练的机器学习模型的 API,即可用并立即工作,每月免费量
  • LucidTech , Itemize , ... - 具有类似功能的不易访问的 API(您需要通过演示和销售流程)
  • Datamolino , CloudFactory , ... - 由人类在幕后手动执行数据转录的 API(不同的延迟、定价和准确性结构)
  • 关于c# - 应付发票捕获或提取自动化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20021353/

    10-13 08:12