hadoop - Spark独立模式下的50-60 GB数据

我正在尝试分析大约50-60 GB的数据。我曾想过使用spark来做到这一点，但是我无法访问集群中的多个节点。可以使用spark独立模式完成此级别的处理吗？如果是，我想知道处理数据所需的估计时间。谢谢!

最佳答案

简短的回答:是的。

Spark会将这个文件分成许多较小的块。在您的情况下，一次只执行很少的块。这几个块应该适合内存(您需要使用配置才能正确使用此功能)

总而言之，您将能够做到这一点，但是如果您拥有更多的内存/内核，那么它将更快，因此您可以并行处理更多的事情。