Google Cloud Vision API(测试版)的第 1 版允许通过 TEXT_DETECTION 请求进行光学字符识别。虽然识别质量很好,但返回的字符没有任何原始布局的暗示。因此,结构化文本(例如,表格、收据、列数据)有时会被错误地排序。
是否可以使用 Google Cloud Vision API 保留文档结构? tesseract 和 hOCR 也被问到了类似的问题。例如,[1] 和 [2]。目前文档 [3] 中没有关于 TEXT_DETECTION 选项的信息。
[1] How to preserve document structure in tesseract
[2] Tesseract - ambiguity in space and tab
[3] https://cloud.google.com/vision/
最佳答案
识别文本结构是一个比识别文本本身更抽象的概念:字母、单词、句子。如果您的文件元数据中已经有此文本结构信息,您可以执行以下操作:
我不是 Cloud Vision text_detection API 的专家,但它写的是 text_detection 而不是 language_detection 或 text_structure_detection,所以它提供了一些关于检测级别/层的小线索。
也许这是他们计划在 future 添加或在文档中描述的功能。
关于google-cloud-vision - 可以使用 Google Cloud Vision TEXT_DETECTION 保留文本结构吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35519689/