apache-spark - 在EMR集群上优化GC

我正在EMR上运行用Scala编写的Spark作业，每个执行程序的标准输出充满了GC分配失败。

2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 909549K->432K(1022400K), 0.0089234 secs] 2279433K->1370373K(3294336K), 0.0090530 secs] [Times: user=0.11 sys=0.00, real=0.00 secs]
2016-12-07T23:42:21.572+0000: [GC (Allocation Failure) 2016-12-07T23:42:21.572+0000: [ParNew: 909296K->435K(1022400K), 0.0089298 secs] 2279237K->1370376K(3294336K), 0.0091147 secs] [Times: user=0.11 sys=0.01, real=0.00 secs]
2016-12-07T23:42:22.525+0000: [GC (Allocation Failure) 2016-12-07T23:42:22.525+0000: [ParNew: 909299K->485K(1022400K), 0.0080858 secs] 2279240K->1370427K(3294336K), 0.0082357 secs] [Times: user=0.12 sys=0.00, real=0.01 secs]
2016-12-07T23:42:23.474+0000: [GC (Allocation Failure) 2016-12-07T23:42:23.474+0000: [ParNew: 909349K->547K(1022400K), 0.0090641 secs] 2279291K->1370489K(3294336K), 0.0091965 secs] [Times: user=0.12 sys=0.00, real=0.00 secs]

我正在读取几TB的数据（大部分是字符串），所以我担心常量GC会减慢处理时间。
对于如何理解此消息以及如何优化GC以使其消耗最少的CPU时间，我将不胜感激。

最佳答案

分配失败是启动GC周期的正常且最常见的原因。

日志显示，GC每秒钟发生一次，大约需要10毫秒，即1％的时间。 IMO，这里没有什么要优化的。