pdfgrep \d{3}-\d{2}-\d{4}[0-9]{3}[-]?[0-9]{2}[-]?[0-9]{4}
1)运行这两个表达式,但仅从第二个表达式中获得结果。2)第二个甚至没有全部的结果,我抽查的时候漏掉了一些。有什么想法为什么?所有SSN都是XXX XX XXX格式。
整个命令:

find . -iname '*.pdf' -exec pdfgrep expression {} +

更新:
1)见下文
2)某些PDF文件无法搜索/编码不正确

最佳答案

这是一只虫子。使用

pdfgrep -P "\\w+" *.pdf

将返回与\w范围对应的结果,而对\\d+执行相同操作将不起作用。

关于regex - pdfgrep'\d {3}-\d {2}-\d {4}'与'[0-9] {3} [-]?[0-9] {2} [-]?[0-9 ] {4}',我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42256670/

10-13 04:10