我一直在使用hadoop进行实时处理方面的阅读,偶然发现了这个http://www.scaleoutsoftware.com/hserver/

从文档中可以看出,它们似乎使用hadoop工作程序/从属节点实现了内存数据网格。我在这里有几个问题

  • 据我了解,如果我的数据大小为100 GB,则我在集群上的所有节点上至少需要100GB的RAM,仅用于数据+任务跟踪程序的附加ram,数据节点守护程序+用于hServer服务的附加ram将在所有这些节点上运行。我的理解正确吗?
  • 该软件声称他们可以通过改善hadoop中的延迟问题来进行实时数据处理。是否因为它允许我们将数据写入内存网格而不是HDFS?

  • 我是大数据技术的新手。如果某些问题过于天真,则表示歉意。

    最佳答案

    [全部披露:我在创建ScaleOut hServer的公司ScaleOut Software工作。

  • 内存数据网格为每个对象创建一个副本,以确保发生故障时的高可用性。 所需的总内存量是用于存储对象的内存加上用于存储对象副本的内存。 在您的示例中,您将需要200 GB的总内存:对象为100 GB,副本为100 GB。例如,在四服务器群集中,每个服务器需要ScaleOut hServer服务可用的50 GB内存。
  • 在当前版本中,ScaleOut hServer通过加快数据访问来实现启用实时分析的第一步。它以两种方式执行此操作,使用不同的输入/输出格式来实现。第一种操作模式将网格用作HDFS的缓存,第二种操作模式将网格用作数据集的主要存储,为快速变化的基于内存的数据提供支持。 使用内存中的数据网格访问数据可通过消除磁盘I / O并最大程度地减少网络开销来减少延迟。 此外,通过将记录读取器生成的键和值而不是原始HDFS文件存储在网格中,缓存HDFS数据还可以提高性能。
  • 10-04 23:29
    查看更多