我正在使用input = sc.wholeTextFiles(hdfs://path/*)
在Spark中加载约20万个文本文件
然后我运行一个println(input.count)
事实证明,我的Spark Shell输出大量文本(这是每个文件的路径),并且过一会儿它挂起而没有返回我的结果。
我相信这可能是由于wholeTextFiles
输出的文本量所致。您是否知道以任何方式静默运行此命令?还是有更好的解决方法?
谢谢!
最佳答案
您的文件有多大?
从wholeTextFiles
API:
在conf/log4j.properties
中,您可以禁止过多的日志记录,如下所示:
# Set everything to be logged to the console
log4j.rootCategory=ERROR, console
这样,您将只将
res
返回到该repl,就像在Scala(语言)repl中一样。这是您可以使用的所有其他日志记录级别:log4j API。
关于hadoop - Spark:静默执行sc.wholeTextFiles,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27839454/