您在HDP群集上使用RAID1有什么经验?
我有两种选择:
即使我失去一个从属节点,我也会有另外两个副本。
我认为RAID只会减慢群集速度。
你怎么看待这件事?您对HDP和RAID有什么经验?
您如何将RAID 0用于从属节点?
最佳答案
我建议在Hadoop主机上完全不使用RAID。需要注意的是,如果您正在运行诸如Oozie和Hive元存储之类的服务,这些服务在后台使用关系数据库,则RAID主机上的RAID可能很有意义。
在主节点上,假设您具有Namenode,zookeeper等-通常,冗余内置在服务中。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper,如果丢失一个节点,则其他两个节点将拥有所有信息。
Zookeeper喜欢快速磁盘-理想情况下,将完整的磁盘专用于zookeeper。如果您具有namenode HA,则为namenode提供edits目录,并为每个日记节点分配一个专用磁盘。
对于从属节点,datanode将跨所有磁盘写入数据,无论如何有效地剥离了数据。每个“写入”最多为HDFS块大小,因此,如果您要写入一个大文件,则可以在磁盘1上获得128MB,然后在磁盘2上获得128MB,依此类推。