我需要创建一个使用高质量相机扫描文档中特定文本块并对其进行OCR的工具每个文档都匹配同一个模板,其中包含几个填充数据的表我需要从每个扫描文档的一个特定单元格中提取数据。
我需要考虑图像的旋转和微小变换。整个工作流应该如下所示:
文件“显示”给摄像机。软件生成文档的图片。
软件负责一些小的旋转和其他转换(小的剪切、缩放、旋转可能会发生,因为文档被握在手中)。
软件识别正确的模板文档正在显示,并从特定单元格提取图像。
然后图像被ocr识别。
基本上,我不需要一个最终的解决方案,而是一些关于从哪里开始寻找的方向我知道如何对纯文本进行ocring,但我不知道如何实现步骤2和3。
提前谢谢。
最佳答案
基本上,纯文本的ocr,尤其是对于非常好的扫描图像来说,是一个很好解决的任务。你所描述的是一个进一步的步骤-图像预处理和数据捕获的场级识别据我所知,开源引擎(甚至被认为是其中最好的tesseract)并没有提供这样的功能。
同时,专有的ocr引擎已经解决了您描述的任务多年(花费了大量人力资源),并且进展非常顺利。所以如果你正在计划一个商业软件,我建议你看看http://ocrsdk.com,它是一个带有web api的云ocr sdk。它可以让你上传一个图像,并发送回OCRed数据它已经内置了所有可能的图像预处理算法,因此您不必担心步骤2至于步骤3-您可能需要参考其文档中的this section。我是开发这项服务前端的团队的一员,所以我可以多说一点。希望有帮助!
关于algorithm - 从复杂文档进行OCR扫描,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10062840/