一、数据分析

1、数据仓库

    数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。

    数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。

数据仓库 & Apache Hive-LMLPHP

思考:

1、假如你现在手里有200w,当下的时间点去投资口罩生成,你做不做?能不能赚钱?

2、假如你是公司营销总监,是否愿意招聘女主播进行短视频带货直播销售?

1.1、数仓专注分析

    数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统。

    同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。

    这也是为什么叫“仓库”,而不叫“工厂”的原因。

数据仓库为何而来,解决什么问题的?

结论:为了分析数据而来,分析结果给企业决策提供支撑。

数据驱动决策的制定。

    联机事务处理系统(OLTP):其主要任务是执行联机事务处理。关系型数据库(RDBMS)是OLTP典型应用,比如:Oracle、MySQL、SQL、SQL Server等

OLTP环境开展分析可行吗?可以,但是没必要

    OLTP系统的核心是面向业务,支持业务,支持事务。所有的业务操作可以分为读、写两种操作,一般来说读的压力明显大于写的压力。如果在OLTP环境直接开展各种分析,有以下问题需要考虑:

    1、数据分析也是对数据进行读取操作,会让读取压力倍增

    2、OLTP仅存储数周或数月的数据

    3、数据分散在不同系统不同表中,字段类型属性不统一。

数据仓库面世

    1、当分析所涉及数据规模较小的时候,在业务低峰期时可以在OLTP系统上开展直接分析。

    2、但为了更好的进行各种规模的数据分析,同时也不影响OLTP系统运行,此时需要构建一个集成统一的数据分析平台。该平台的目的很简单:面向分析,支持分析,并且和OLTP系统解耦合。

    3、基于这种需求,数据仓库的雏形开始在企业中出现了。

数据仓库的构建

    数仓是一个用于存储、分析、报告的数据系统,目的是构建面向分析的集成化数据环境。我们把这种面向分析、支持分析的系统称之为OLAP(联机分析处理)系统。当然数据仓库是OLAP系统的一种实现。

1.2、数仓主要特征

    1、面向主题(Subject-Oriented):主题是一个抽象的概念,是较高层次上数据综合、归类并进行分析利用的抽象。

    2、集成性(Integrated):主题相关的数据通常会分布在多个操作型系统中,彼此分散、独立、异构。需要集成到数仓主题下要统一源数据中所有矛盾之处(如字段的同名异义、异名同义、单位不统一、字长不一致等等) 

    业务系统(ETL:抽取、转换、加载)===>数仓。

    3、非易失性(Non-Volatile):也叫非易变性。数据仓库是分析数据的平台,而不是创造数据的平台。我们是通过数仓去分析数据中的规律,而不是去创造修改其中的规律。因此数据进入数据仓库后,它便稳定且不会改变。数据仓库中一般有大量的查询操作,但修改和删除操作很少。

    4、时变性(Time-Variant):数据仓库包含各种粒度的历史数据,数据可能与某个特定日期、星期、月份、季度或者年份有关。当业务变化后会失去时效性。因此数据仓库的数据需要随着时间更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。

1.3、数据仓库主流开发语言--SQL

2、Apache Hive

Hadoop分布式文件系统(一)

请记住,你当下的结果,由过去决定;你现在的努力,在未来见效;
不断学习才能不断提高!磨炼,不断磨炼自己的技能!学习伴随我们终生!
生如蝼蚁,当立鸿鹄之志,命比纸薄,应有不屈之心。
乾坤未定,你我皆是黑马,若乾坤已定,谁敢说我不能逆转乾坤?
努力吧,机会永远是留给那些有准备的人,否则,机会来了,没有实力,只能眼睁睁地看着机会溜走。

01-17 11:10