pdfgrep \d{3}-\d{2}-\d{4}
与[0-9]{3}[-]?[0-9]{2}[-]?[0-9]{4}
1)运行这两个表达式,但仅从第二个表达式中获得结果。2)第二个甚至没有全部的结果,我抽查的时候漏掉了一些。有什么想法为什么?所有SSN都是XXX XX XXX格式。
整个命令:
find . -iname '*.pdf' -exec pdfgrep expression {} +
更新:
1)见下文
2)某些PDF文件无法搜索/编码不正确
最佳答案
这是一只虫子。使用
pdfgrep -P "\\w+" *.pdf
将返回与
\w
范围对应的结果,而对\\d+
执行相同操作将不起作用。关于regex - pdfgrep'\d {3}-\d {2}-\d {4}'与'[0-9] {3} [-]?[0-9] {2} [-]?[0-9 ] {4}',我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42256670/