hadoop - 读取，转换并流式传输到Hadoop

我需要构建一个服务器，该服务器读取目录中的大型csv数据文件(100GB)，转换一些字段并将其流式传输到Hadoop集群。

这些文件是在随机时间(每天100次)从其他服务器复制过来的。完成复制文件需要很长时间。

我需要:

定期检查要处理(即加密和流式传输)的新文件

检查csv是否已完全复制以启动加密

Process并行流传输多个文件，但阻止两个进程
流相同的文件

标记正在成功流式传输的文件

马克
文件传输失败，然后重新开始传输
处理。

我的问题是:是否有一个开源的ETL工具可以提供所有这5个工具，并且可以与Hadoop / Spark Stream一起很好地工作？我认为这个过程是相当标准的，但是我还找不到。

谢谢。

最佳答案

Flume或Kafka将为您服务。两者都与Spark和Hadoop很好地集成在一起。

关于hadoop - 读取，转换并流式传输到Hadoop，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/31469812/