我一直在不停地寻找一种可以在保持结构的同时从PDF提取文本的工具。也就是说,给定这样的文本:
标题
字幕1
body 1
字幕2
body 2
或者
标题
字幕1。 body 1
字幕2。 body 2
我想要一个可以输出标题,字幕和正文列表的工具。或者,如果有人知道该怎么做,那也将是有用的:)
如果这3个类别使用相同的格式,则会更容易,但有时字幕可以为粗体,斜体,带下划线或3个字符的随机组合。从HTML/PDF/Docx进行简单解析的问题在于这些文本没有标准,因此很多时候我们会遇到被分成多个标签的句子(对于HTML),并且很难解析。如您所见,字幕并不总是在给定的段落上方,有时也不是在项目符号中。这么多可能的格式组合...
到目前为止,我在使用Tesseract的here和使用OpenCV的here中都遇到过类似的查询,但是没有一个人能完全回答我的问题。
我知道有一些机器学习工具可以从科学论文中提取“目录”部分,但这并不能减少它。
有谁知道软件包/库,或者是否已经实现了?还是没有人知道一种解决此问题的方法,最好是使用Python?
谢谢!
编辑:
我要引用的文档是公司的10-K,例如https://www.sec.gov/Archives/edgar/data/789019/000119312516662209/d187868d10k.htm#tx187868_10
并说,我想如上所述以编程和结构化的方式提取第7项。但是并非所有标准都可以进行HTML解析。 (PDF文档只是将此HTML保存为PDF)
最佳答案
有些工具可以在一定程度上完成您所要求的功能。所谓“一定范围”,是指在OCR转换后将保留标题和标题字体属性。
看一下Adobe的Document Cloud平台。它仍处于启动阶段,并将于2020年初启动。但是,开发人员可以通过注册抢先体验计划来抢先体验。以下链接提供了所有信息:
https://www.adobe.com/devnet-docs/dcsdk/servicessdk/index.html
我已经亲自试用了该服务,并且输出看起来很有希望。输入文件中的所有标题和标题大小写都将被识别。提供此确切功能的微服务是“ ExportPDF ”服务,它将扫描的PDF文档转换为Microsoft Word文档。
可在以下位置获得示例代码:https://www.adobe.com/devnet-docs/dcsdk/servicessdk/howtos.html#export-a-pdf
关于python - 在保留文本结构(页眉/字幕/正文)的同时,如何进行OCR以进行PDF文本提取,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51252872/