我需要构建一个服务器,该服务器读取目录中的大型csv数据文件(100GB),转换一些字段并将其流式传输到Hadoop集群。
这些文件是在随机时间(每天100次)从其他服务器复制过来的。完成复制文件需要很长时间。
我需要:
流相同的文件
文件传输失败,然后重新开始传输
处理。
我的问题是:是否有一个开源的ETL工具可以提供所有这5个工具,并且可以与Hadoop / Spark Stream一起很好地工作?我认为这个过程是相当标准的,但是我还找不到。
谢谢。
最佳答案
Flume或Kafka将为您服务。两者都与Spark和Hadoop很好地集成在一起。
关于hadoop - 读取,转换并流式传输到Hadoop,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31469812/