您在HDP群集上使用RAID1有什么经验?

我有两种选择:

  • 为主节点和动物园节点设置RAID 1,并且不要在从属节点(例如kafka代理,hbase区域服务器和yarn nodemanager)上完全使用RAID。

  • 即使我失去一个从属节点,我也会有另外两个副本。
    我认为RAI​​D只会减慢群集速度。
  • 尽管进行了所有操作,但仍使用RAID 1进行设置。

  • 你怎么看待这件事?您对HDP和RAID有什么经验?
    您如何将RAID 0用于从属节点?

    最佳答案

    我建议在Hadoop主机上完全不使用RAID。需要注意的是,如果您正在运行诸如Oozie和Hive元存储之类的服务,这些服务在后台使用关系数据库,则RAID主机上的RAID可能很有意义。

    在主节点上,假设您具有Namenode,zookeeper等-通常,冗余内置在服务中。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper,如果丢失一个节点,则其他两个节点将拥有所有信息。

    Zookeeper喜欢快速磁盘-理想情况下,将完整的磁盘专用于zookeeper。如果您具有namenode HA,则为namenode提供edits目录,并为每个日记节点分配一个专用磁盘。

    对于从属节点,datanode将跨所有磁盘写入数据,无论如何有效地剥离了数据。每个“写入”最多为HDFS块大小,因此,如果您要写入一个大文件,则可以在磁盘1上获得128MB,然后在磁盘2上获得128MB,依此类推。

    10-04 17:28