我需要构建一个服务器,该服务器读取目录中的大型csv数据文件(100GB),转换一些字段并将其流式传输到Hadoop集群。

这些文件是在随机时间(每天100次)从其他服务器复制过来的。完成复制文件需要很长时间。

我需要:

  • 定期检查要处理(即加密和流式传输)的新文件
  • 检查csv是否已完全复制以启动加密
  • Process并行流传输多个文件,但阻止两个进程
    流相同的文件
  • 标记正在成功流式传输的文件
  • 马克
    文件传输失败,然后重新开始传输
    处理。

  • 我的问题是:是否有一个开源的ETL工具可以提供所有这5个工具,并且可以与Hadoop / Spark Stream一起很好地工作?我认为这个过程是相当标准的,但是我还找不到。

    谢谢。

    最佳答案

    FlumeKafka将为您服务。两者都与Spark和Hadoop很好地集成在一起。

    关于hadoop - 读取,转换并流式传输到Hadoop,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31469812/

    10-12 23:01