我正在使用tesseract ocr并获得hOCR格式的输出。我需要将这个hOCR输出存储到数据库中(在我的例子中是PostgreSQL)。
因为我可能需要从这个hOCR中单独获得每一条信息(80%),哪种方法是正确的?它应该存储为XML数据类型还是解析为JSON并存储?在JSON的情况下,如何用Python将这个hOCR解析为JSON。其他相关建议也受到赞赏。
最佳答案
hOCR似乎是XML的方言,因此您应该能够使用stdlib中的xml.etree
模块将hOCR代码解析为Python可导航树。然后导航该树以组成一个对象或嵌套的dict,最后使用stdlib的json
模块将dict转换为JSON。
关于python - 使用Python将hOCR解析为JSON,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51421283/