我试图弄清楚我可以在选择多个感兴趣的文件时推动此命令多远。例如,我使用以下通配符来拾取多个目录中所有感兴趣的文件,但是我想使用正则表达式等对目录名的长度进行限制。
lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv")
但是,我可以限制目录名称的长度而不是
*
吗?例如使用^[0-9]{8}$
?或采取任何方法而无需借助预过滤来构建有效目录列表的方式。 最佳答案
为了使事情简单明了,您想要的只是一个简单的glob而不是正则表达式。您可以执行以下操作:
glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8)
lines = sc.textFile(glob)
关于python - PySpark textFile命令中的正则表达式,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30919794/