作为POC的一部分,我需要构建一个数据基础结构,该基础结构可以从多个ERP源(SAP和Oracle)中获取数据并将其提取到数据湖或目标数据库中。另外,我需要加入很多表,并根据业务需要进行严格的列转换。考虑到长期解决方案和大量数据提取(约10,000,000行),哪种方法才是明智的选择?最后,我将以 View 的形式在应用程序中使用此数据,或者可能是REST调用。我是否需要考虑任何ETL工具来执行数据流任务?如果我正在考虑使用开源解决方案来实现这一目标,那将是什么方法?我是否需要考虑实现像Hadoop这样的大数据解决方案?如何从头开始?

谢谢!

最佳答案

在这被标记为“基于主要观点”之前,这是我的两分钱。

您可以完全使用Hadoop生态系统工具并利用HDFS(Hadoop分布式文件系统)作为“容错”数据湖/数据仓库来实现。



我们拥有Sqoop,您可以使用它将整个表从“关系数据库”移至HDFS。它通常易于使用,只有几套命令。



然后,您可以继续将数据加载到Hive上,该文件是基于HDFS构建的数据仓库系统。在查询和加载数据方面,它与RDBMS非常相似,并且具有一组不错的转换。

或者,如果您想提高标准,则可以在Hive中创建这些表,然后将这些表加载到Spark中,在其中执行转换(和操作),然后将数据加载回Hive(或使用Spark SQL的任何其他数据库)。

这些都是开源的,并与Cloudera CDH打包在一起进行测试。

关于hadoop - 数据基础架构实现-最佳方法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43893973/

10-12 16:42
查看更多