我正在使用input = sc.wholeTextFiles(hdfs://path/*)在Spark中加载约20万个文本文件
然后我运行一个println(input.count)事实证明,我的Spark Shell输出大量文本(这是每个文件的路径),并且过一会儿它挂起而没有返回我的结果。

我相信这可能是由于wholeTextFiles输出的文本量所致。您是否知道以任何方式静默运行此命令?还是有更好的解决方法?

谢谢!

最佳答案

您的文件有多大?
wholeTextFiles API:



conf/log4j.properties中,您可以禁止过多的日志记录,如下所示:

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样,您将只将res返回到该repl,就像在Scala(语言)repl中一样。

这是您可以使用的所有其他日志记录级别:log4j API

关于hadoop - Spark:静默执行sc.wholeTextFiles,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27839454/

10-16 01:31