我试图了解OLAP,OLTP,数据挖掘,分析等内容,并且我对这些概念的理解仍然有些模糊。有关这些主题的信息倾向于在互联网上以非常复杂的方式进行解释。

我觉得这样的问题很可能会结束,因为它是一个非常广泛的问题,因此,我将尝试将其缩小为两个问题:

问题1:

经过研究,我了解以下有关这些概念的信息,对吗?

  • Analysis正在分解一些复杂的东西,以便更好地了解内部工作原理。
  • Analytics是对需要大量数学和统计信息的信息的预测分析。
  • 数据库的类型很多,但是它们是OLTP(事务性)或OLAP(分析性)。
  • OLTP数据库使用ER图,因此由于它们是规范化形式,因此更易于更新。
  • 相反,OLAP使用非规范化的星型模式,因此更易于查询
  • 因为没有冗余,所以
  • OLAP用于预测分析,而OLTP通常用于更实际的情况。
  • 数据仓库是OLAP数据库的一种,通常由多个其他数据库组成。
  • 数据挖掘是一种用于分析的工具,您可以在其中使用计算机软件来查找数据之间的关系,以便您可以预测事物(例如,客户行为)。

  • 问题2:

    我对分析和分析之间的差异感到特别困惑。他们说分析是多维分析,但是这意味着什么呢?

    最佳答案

    我将尝试从金字塔的顶部向您解释:

    商业智能(您未曾提及)是IT中的术语,代表复杂的系统,并通过数据提供有关公司的有用信息。

    因此,BI系统具有目标:干净,准确和有意义的信息。
    干净意味着没有技术问题(缺少密钥,不完整的数据等)。准确意味着准确-BI系统也用作生产数据库的故障检查器(逻辑故障-即发票金额太高,或使用了无效的合作伙伴)。它已通过规则完成。意义很难解释,但是用简单的英语来说,它就是您想要的所有数据(甚至是上次 session 中的excel表)。

    因此,BI系统具有后端:这是数据仓库。
    DWH就是数据库(实例,不是软件)。它可以存储在RDBMS,分析数据库(列或文档存储类型)或NoSQL数据库中。

    数据仓库是我在上面解释的通常用于整个数据库的术语。可能有许多数据集市(如果使用了Kimball模型)-或更常见的是第三个标准化形式的关系系统(Inmon模型),称为企业数据仓库

    数据集市是DWH中相关的表(星型架构,雪花型架构)。事实表(非规范化形式的业务流程)和维度表。

    每个数据集市代表一个业务流程。示例:DWH有3个数据集市。一种是零售,第二种是出口,第三种是进口。在零售中,您可以按SKU,日期,商店,城市等(维度)查看总销售额,已售数量,进口价格,利润(量度)。

    将数据加载到DWH中称为 ETL (提取,转换,加载)。

  • 从多个来源(ERP数据库,CRM数据库,excel文件,Web服务...)提取数据
  • 转换数据(干净数据,来自差异源的数据连接,匹配键,矿山数据)
  • 加载数据(在特定的数据集市中加载转换后的数据)

  • 由于评论的原因而进行编辑: ETL过程通常使用ETL工具创建,或者使用某些编程语言(python,C#ect)和API手动创建。

    ETL流程是一组相关的SQL,过程,脚本和规则,并分为3部分(如上图所示),由元数据控制。
    它是预定的(每晚,每隔几个小时)或实时的(更改数据捕获,触发器,事务)。

    OLTP OLAP 类型的数据处理。 OLTP用于数据库和软件之间的事务处理(通常仅是一种输入/输出数据的方式)。
    OLAP用于分析目的,这意味着有多个来源,历史数据,高选择查询性能和挖掘的数据。

    由于注释而进行编辑:数据处理是从数据库存储和访问数据的方式。因此,根据您的需求,可以以不同的方式设置数据库。

    图片来自http://datawarehouse4u.info/:

    数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以使您对业务流程甚至预测有更深入的了解。

    分析是一个动词,在BI世界中,这意味着从数据中获取询问的信息很简单。多维分析实际上表明了系统如何对数据进行 slice (多维数据集位于多维数据集内)。维基百科说,数据分析是检查数据的过程,目的是发现有用的信息。

    Analytics 是一个名词,它表示分析过程的结果。

    不要对这两个词大惊小怪。

    08-25 22:10
    查看更多