我正在尝试将 pdf 转换为 csv 文件。 pdf 文件具有表格格式的数据,第一行作为标题。我已经达到了可以从单元格中提取文本、比较表格中文本的基线并检测换行符的级别,但我需要比较表格边框以检测表格的开头。我不知道如何检测和比较 PDF 中的行。谁能帮我?

谢谢!!!

最佳答案

正如您所见(希望如此),PDF 没有表格的概念,只有放置在特定位置的文本和围绕它们绘制的线条。文本和行之间没有内部关系。理解这一点非常重要。

知道这一点,如果所有单元格都有足够的填充,您可以查找足够大的字符之间的间隙,例如 3 个或更多空格的宽度。如果单元格没有足够的间距,这很可能会破裂。

您还可以查看 PDF 中的每一行,并尝试找出代表“表格”行的内容。请参阅 this answer for how to walk every token on a page 以查看正在绘制的内容。

关于pdf - 如何在itextSharp中检测表开始?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15767952/

10-16 19:30