我对大数据非常陌生,对Sqoop和Flume的了解也很少
所以我得到了Sqoop和Flume之间的区别
我的困惑是因为我正在查看的大数据架构(我没有虚拟副本)分组的结构化数据及其由Sqoop传输和由Flume流式传输的非结构化数据。
我的问题是,这是否意味着Flume仅用于流媒体?
高频数据呢? Flume是否支持非日志文件(即音频,视频)非结构化数据的传输,还是Sqoop能够处理?
最后一个问题是Sqoop是否可以使用联合数据源?如果是,则同时使用真实和虚拟?
谢谢,
最佳答案
Apache Flume 是一个分布式,可靠且可用的系统,用于有效地收集,聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。
Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此 Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎所有可能的数据源。
Apache Sqoop 是一种工具,旨在在Apache Hadoop和关系数据库等结构化数据存储之间高效地传输批量数据(它会导入数据,在Hadoop MapReduce中转换数据,然后导出数据)。
Sqoop依靠数据库描述要导入的数据的模式来自动执行此过程的大部分过程。 Sqoop使用MapReduce导入和导出数据,这提供了并行操作以及容错能力。
资料来源:sqoop-vs-flume-battle-of-the-hadoop
引用:INGESTION AND STREAMING
Flume对流非常有效,如果您只想从RDBMS转储数据,为什么不使用sqoop?
通过高频数据,如果您的意思是社交媒体,可以使用水槽处理。是非结构化数据,水槽也可以处理。
关于hadoop - Sqoop和水槽的澄清,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37549983/