一、项目需求

  • 数据采集平台搭建
  • 实现用户行为数据仓库的分层搭建
  • 实现业务数据仓库的分层搭建
  • 针对数据仓库中的数据进行留存、转换率、GMV、复购率、活跃等报表分析

二、思考题

  • 项目技术如何选型
  • 框架版本如何选型(如Apache、CDH、HDP)
  • 服务器使用物理机还是云主机
  • 如何确认集群规模?(假设每台服务器8t硬盘)

技术选型:

数据采集传输Flume、Kafka、Sqoop、Logstash、 DataX

数据存储Mysql、HDFS、HBase、Redis、MongoDB

数据计算Hive、Tez、Spark、Flink、Storm

数据查询Presto、Druid、Impala、Kylin

问题:

kafka消息存HDFS方法?

java代码消费,然后调用HDFS上传api或者通过Flume

系统数据流程设计

数据仓库概念-LMLPHP

10-08 12:43