hadoop - Spark:静默执行sc.wholeTextFiles

我正在使用input = sc.wholeTextFiles(hdfs://path/*)在Spark中加载约20万个文本文件
然后我运行一个println(input.count)事实证明，我的Spark Shell输出大量文本(这是每个文件的路径)，并且过一会儿它挂起而没有返回我的结果。

我相信这可能是由于wholeTextFiles输出的文本量所致。您是否知道以任何方式静默运行此命令？还是有更好的解决方法？

谢谢!

最佳答案

您的文件有多大？
从wholeTextFiles API:

在conf/log4j.properties中，您可以禁止过多的日志记录，如下所示:

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样，您将只将res返回到该repl，就像在Scala(语言)repl中一样。

这是您可以使用的所有其他日志记录级别:log4j API。

关于hadoop - Spark:静默执行sc.wholeTextFiles，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/27839454/

WholeTextFiles

hadoop - Spark:静默执行sc.wholeTextFiles