我已经主要在使用Hadoop和NoSQL产品的前提下实现了生产大数据解决方案,但是从未在Cloud上实现过。

今天,我需要转向云计算,因此我在徘徊什么是BigData on Cloud(主要是azure)的已知(生产且不仅是POC)实现:

  • Full PaaS解决方案:EMR / HDINSIGHT + S3 / AzureBlob(或Azure Datalake)+ Kenesis / Azure Event Hub
  • IaaS完整发行版(CDH,HDP):IaaS上的Cloudera或Hortonworks + IaaS上的Kafka
  • 混合PaaS + IaaS:S3 / AzureBlob上的冷数据,IaaS Hadoop,AD上的PaaS + Azure Event Hub上的热数据和热数据交换

  • 最好的祝福

    最佳答案

    除了已经说过的话,我还发现在云端同时使用完整的PAAS和IAAS解决方案实现了许多生产实现,更成熟的一种是基于S3和EMR的Netflix。

    09-04 05:33