从NFS挂载实现并行复制到hadoop的最佳最快方法是什么?
我们有大量文件的挂载,需要将其复制到hdfs中。

一些选项:

  • 以多线程方式运行copyFromLocal
  • 以隔离方式使用distcp。
  • 我可以编写仅 map 作业来进行复制吗?

  • 问候,
    京东

    最佳答案

    我认为关键问题是NFS链接的源代码是什么?如果它是NAS,则可能会有多个客户端计算机同时运行copyFromLocal的情况(每台都一个)。当您从同一客户端同时读取5-10次以上的磁盘时,即使高性能的NAS也将令人不快。我将对以下模型进行建模(全部使用copyFromLocal进行建模):

  • NAS-> 1个客户端-> 5、10、50、100个并行进程
  • NAS-> 5个客户端->每个
  • 5、10、50、100个并行进程

    我肯定会避免M / R,因为进程启动成本太高,甚至distcp也不会这样做,因为您将无法控制源NAS受到的打击(这将成为您的瓶颈)。

    09-27 18:30