本文介绍了HDFS是必要的星火工作量?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

HDFS是没有必要的,但建议出现在一些地方。

HDFS is not necessary but recommendations appear in some places.

要帮助评估中获得HDFS的运行花费的精力:

To help evaluate the effort spent in getting HDFS running:

什么是使用HDFS为星火工作负载的好处是什么?

推荐答案

星火是一个分布式处理引擎和 HDFS 是分布式存储系统。

Spark is a distributed processing engine and HDFS is distributed storage system.

如果HDFS不是一个选项,然后星火必须使用一些其他替代了Apache Cassandra的或亚马逊S3。

If HDFS is not an option, then Spark has to use some other alternative in form of Apache Cassandra Or Amazon S3.

看一看这个对比

S3 - 非紧急的批处理作业。 S3适合非常具体的使用情况下,当数据局部性不是关键的。

S3 – Non urgent batch jobs. S3 fits very specific use cases, when data locality isn’t critical.

卡桑德拉 - 完美的流数据分析和批处理作业矫枉过正

Cassandra – Perfect for streaming data analysis and an overkill for batch jobs.

HDFS - 伟大适合批量作业而不影响数据局部性。

HDFS – Great fit for batch jobs without compromising on data locality.

何时使用HDFS作为存储引擎星火分布式处理?

When to use HDFS as storage engine for Spark distributed processing?


  1. 如果你有大 Hadoop集群已经到位,寻找您的数据的实时分析,星火可以利用现有的Hadoop集群。这将缩短开发时间。

  1. If you have big Hadoop cluster already in place and looking for real time analytics of your data, Spark can use existing Hadoop cluster. It will reduce development time.

Spark是内存计算引擎。由于数据无法装入内存一如既往的数据必须溢出到磁盘上的一些操作。火花将从HDFS在这种情况下benifit。 火花取得的Teragen排序记录中使用HDFS存储排序操作。

Spark is in-memory computing engine. Since data can't fit into memory always, data has to be spilled to disk for some operations. Spark will benifit from HDFS in this case. The Teragen sorting record achieved by Spark used HDFS storage for sorting operation.

HDFS 是可扩展的,可靠的容错分布式文件系统(Hadoop的自释放2.X)。随着数据局部性原理,处理速度得到提高。

HDFS is scalable, reliable and fault tolerant distributed file system ( since Hadoop 2.x release). With data locality principle, processing speed is improved.

定价成本低。价格低尽可能10X。

Pricing cost is low compared to other alternatives. Prices are low as far as 10X.

最佳批处理作业。

这篇关于HDFS是必要的星火工作量?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-06 10:04