我试图了解OLAP,OLTP,数据挖掘,分析等内容,并且我对这些概念的理解仍然有些模糊。有关这些主题的信息倾向于在互联网上以非常复杂的方式进行解释。
我觉得这样的问题很可能会结束,因为它是一个非常广泛的问题,因此,我将尝试将其缩小为两个问题:
问题1:
经过研究,我了解以下有关这些概念的信息,对吗?
问题2:
我对分析和分析之间的差异感到特别困惑。他们说分析是多维分析,但是这意味着什么呢?
最佳答案
我将尝试从金字塔的顶部向您解释:
商业智能(您未曾提及)是IT中的术语,代表复杂的系统,并通过数据提供有关公司的有用信息。
因此,BI系统具有目标:干净,准确和有意义的信息。
干净意味着没有技术问题(缺少密钥,不完整的数据等)。准确意味着准确-BI系统也用作生产数据库的故障检查器(逻辑故障-即发票金额太高,或使用了无效的合作伙伴)。它已通过规则完成。意义很难解释,但是用简单的英语来说,它就是您想要的所有数据(甚至是上次 session 中的excel表)。
因此,BI系统具有后端:这是数据仓库。
DWH就是数据库(实例,不是软件)。它可以存储在RDBMS,分析数据库(列或文档存储类型)或NoSQL数据库中。
数据仓库是我在上面解释的通常用于整个数据库的术语。可能有许多数据集市(如果使用了Kimball模型)-或更常见的是第三个标准化形式的关系系统(Inmon模型),称为企业数据仓库。
数据集市是DWH中相关的表(星型架构,雪花型架构)。事实表(非规范化形式的业务流程)和维度表。
每个数据集市代表一个业务流程。示例:DWH有3个数据集市。一种是零售,第二种是出口,第三种是进口。在零售中,您可以按SKU,日期,商店,城市等(维度)查看总销售额,已售数量,进口价格,利润(量度)。
将数据加载到DWH中称为 ETL (提取,转换,加载)。
由于评论的原因而进行编辑: ETL过程通常使用ETL工具创建,或者使用某些编程语言(python,C#ect)和API手动创建。
ETL流程是一组相关的SQL,过程,脚本和规则,并分为3部分(如上图所示),由元数据控制。
它是预定的(每晚,每隔几个小时)或实时的(更改数据捕获,触发器,事务)。
OLTP 和 OLAP 是类型的数据处理。 OLTP用于数据库和软件之间的事务处理(通常仅是一种输入/输出数据的方式)。
OLAP用于分析目的,这意味着有多个来源,历史数据,高选择查询性能和挖掘的数据。
由于注释而进行编辑:数据处理是从数据库存储和访问数据的方式。因此,根据您的需求,可以以不同的方式设置数据库。
图片来自http://datawarehouse4u.info/:
数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以使您对业务流程甚至预测有更深入的了解。
分析是一个动词,在BI世界中,这意味着从数据中获取询问的信息很简单。多维分析实际上表明了系统如何对数据进行 slice (多维数据集位于多维数据集内)。维基百科说,数据分析是检查数据的过程,目的是发现有用的信息。
Analytics 是一个名词,它表示分析过程的结果。
不要对这两个词大惊小怪。