从NFS挂载实现并行复制到hadoop的最佳最快方法是什么?
我们有大量文件的挂载,需要将其复制到hdfs中。
一些选项:
问候,
京东
最佳答案
我认为关键问题是NFS链接的源代码是什么?如果它是NAS,则可能会有多个客户端计算机同时运行copyFromLocal的情况(每台都一个)。当您从同一客户端同时读取5-10次以上的磁盘时,即使高性能的NAS也将令人不快。我将对以下模型进行建模(全部使用copyFromLocal进行建模):
我肯定会避免M / R,因为进程启动成本太高,甚至distcp也不会这样做,因为您将无法控制源NAS受到的打击(这将成为您的瓶颈)。