目录
6.1 基本概念
6.1.1 关于数据的基本概念
6.1.2 数据库管理系统的功能
6.1.3 数据各个发展阶段的特点
6.1.4 数据库系统的体系结构
6.2 数据模型
6.2.1 三级模式两级映像
6.2.2 数据模型_模型分类
6.2.3 数据模型_组成要素
6.2.4 概念模型中的基本概念
6.2.5 数据模型
6.4 数据仓库与数据挖掘基础知识
6.4.1 数据仓库
6.4.2 数据挖掘
6.4.3 商业智能BI
6.1 基本概念
6.1.1 关于数据的基本概念
- 数据:是数据库中存储的基本对象,是描述事物的符号记录数据的种类:文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等。
- 数据库(DB):是长期存储在计算机内、有组织的、可共享的大量数据的集合。
数据库的基本特征:数据按一定的数据模型组织、描述和存储,可为各种用户共享,几余度较小;数据独立性较高;易扩展。 - 数据库管理系统DBMS:是位于用户与操作系统之间的一层数据管理软件,用于科学地获取、组织、存储和维护数据,是一个大型复杂的软件系统。
- 数据库系统(DBS)是计算机系统中引入数据库后的系统构成。
数据库库系统的构成:数据库;硬件平台;软件 (应用程序) ;数据库管理员。
6.1.2 数据库管理系统的功能
DBMS的组成部分:
● 数据定义语言DDL及编译处理程序
● 数据操纵语言DML及其编译程序
● 数据库运行控制程序
● 实用程序
DBMS的主要功能:
● 数据定义
● 数据操纵
● 数据库运行管理
● 数据组织、存储和管理
● 数据库的建立和维护
● 数据通信接口
● 数据控制功能
数据控制功能
(1)数据的安全性(Security) 保护保护数据,以防止不合法的使用造成的数据的泄密和破坏。
(2)数据的完整性(Integrity)检查将数据控制在有效的范围内,或保证数据之间满足一定的关系。
(3)并发(Concurrency)控制对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
(4)数据库恢复(Recovery) 将数据库从错误状态恢复到某一已知的正确状态
6.1.3 数据各个发展阶段的特点
6.1.4 数据库系统的体系结构
- 从数据库应用开发人员或数据库管理系统的角度看(内部体系结构): 数据库采用三级模式结构,是数据库系统的内部的系统结构,外模式、模式、内模式。
- 从数据库最终用户角度看(外部体系结构):
(1)集中式:数据、数据管理、功能应用、用户接口到DBMS核心都集中在DBMS所在的计算机上。
(2)分布式数据库系统是数据库系统和计算机网络相结合的产物。是针对面向地理上分散,而管理上又需要不同程度集中管理的需求而提出的一种数据管理信息系统。
(3)客户-服务器结构:一个处理机(客户端)的请求被送到另一个处理机(服务器上执行。
(4)并行式:使用相连接的多个CPU和多个磁盘进行并行操作,提高数据处理和I/O速度。
(5)数据库技术是计算机处理与数据存储最有效、最成功的技术,而Web技术的特点是资源共享,因此数据与资源共享这两种技术的结合即形成了今天广泛应用的IWeh数据库(即网络数据库)
6.2 数据模型
6.2.1 三级模式两级映像
- 模式(概念模式、逻辑模式):就是我们通常使用的表这个级别;是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图,综合了所有用户的需求;一个数据库只有一个模式。如公司的所有员工管理信息系统。
- 外模式(子模式、用户模式):对应数据库中的视图这个级别;是数据库用户 (包括应用程序员和最终用户使用的局部数据的逻辑结构和特征的描述,数据库用户的数据视图,是与某一应用有关的数据的逻辑表示。员工管理员和薪酬管理员关注的不同方面。介于模式与应用之间,可以有多个外模式,通常是模式的子集;反映了不同的用户的应用需求外模式的用途:保证数据库安全性的一个有力措施每个用户只能看见和访问所对应的外模式中的数据。
- 内模式《存储模式):管理如何存储物理的数据,是数据物理结构和存储方式的描述,是数据在数据库内部的表示方法;一个数据库只有一个内模式。
【三个级别】
● 用户级数据库:对应于外模式,是用户看到和使用的数据库,又称用户视图,一个数据库可有多个不同的用户视图;
● 概念级数据库:对应于概念模式,是所有用户视图的最小并集,一个数据库应用系统只有一个DBA视图。
● 物理级数据库:对应于内模式,是数据库的底层表示,它描述数据的实际存储组织,是最接近于物理存储的,又称为内部视图。
6.2.2 数据模型_模型分类
数据模型,现实世界的模拟,对现实世界中的概念进行抽象、表示和处理(对数据进行描述、组织和操作)的工具。数据模型是数据库系统的核心和基础。
● 概念模型(信息模型):按用户的观点来对数据和信息建模,通常用ER图进行描述,用于数据库设计。与计算机无关。
● 逻辑模型:按计算机系统的观点对数据建模,用于DBMS实现。主要包括:网状模型、层次模型、关系模型、面向对象模型等。与计算机有关
● 物理模型:是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法。与计算机有关。
6.2.3 数据模型_组成要素
- 实体完整性:实体完整性是指实体的主属性不能取空值。实体完整性规则规定实体的所有主属性都不能为空。
- 参照完整性:在关系数据库中主要是外键参照的完整性。
- 用户定义完整性:用户定义完整性是针对某一个具体关系的约束条件。
6.2.4 概念模型中的基本概念
- 实体型之间的联系:E-R图(实体-关系图)
概念模型用于信息世界的建模是数据库设计的有力工具,也是数据库设计人员和用户之间进行交流的语言,主要通过E-R图进行描述。
(1)实体(Entity):客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念客观实体:人、课桌、书本......
抽象实体:账户、贷款......
(2)属性(Attribute):实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画如员工实体由员工编号、姓名、年龄、职务、部门......
(3)码(Key):标识实体的属性集称为码。
(4)域(Domain):属性的取值范围称为该属性的域
(5)实体型(Entity Type):用实体名及其属性名集合来抽象和刻画同类实体称为实体型
- 属性的分类:
● 简单属性:原子的、不可再分的。
● 复合属性:可细分为多个属性部分,如name有first name和last name。或者家庭地址:北京市朝阳区望京街道
● 单值属性:定义的属性对于一个特定的实体都只有单独的一个值。
● 多值属性:一个属性可能对应一组值。如员工的电话号码:每个员工就可能有0、1或多个与之相对应。
● NULL属性:当实体在某个属性上没有值或属性值未知时,使用NULL值。
● 派生属性:这类属性的值可以从别的相关属性或实体中派生(计算出来)
【概念模型-E-R图-联系(2个实体)】
- 一对一联系(1:1)定义:如果对于实体集A中的每一个实体,实体集B中至多有一个(也可以没有)实体与之联系,反之亦然,则称实体集A与实体集B具有一对一联系,记为1:1。
- 一对多联系(1:n)定义:如果对于实体集A中的每一个实体,实体集B中有n个实体(n20)与之联系,反之,对于实体集B中的每一个实体,实体集A中至多只有一个实体与之联系,则称实体集A与实体集B有一对多联系,记为1:n。
- 多对多联系(m:n)定义:如果对于实体集A中的每一个实体,实体集B中有n个实体(n20)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m20)与之联系,则称实体集A与实体B具有多对多联系,记为m:n。
6.2.5 数据模型
- 层次模型(Hierarchical Model)
- 网状模型(Network Model)
- 关系模型(Relational Model)
- 面向对象模型(Object Oriented Model)
- 对象关系模型(Object Relational Model)
层次模型用树形结构来表示各类实体以及实体间的联系层次模型只能表示1:n联系,不能表示mn联系。层次模型中的术语:根结点,双亲结点,兄弟结点,叶结点。层次模型两个基本条件:有且只有一个结点没有双亲结点,这个结点称为根结点;根以外的其它结点有且只有一个双亲结点。
关系数据库系统采用关系模型作为数据的组织方式,以关系代数为数据基础,数据用二维表表示。大多数数据库均为关系数据模型。优点:建立在严格的数学概念基础上;概念单一、结构简单、清晰,用户易懂易用,存取路径对用户透明从而数据独立性、安全性好,简化数据库开发工作。缺点:由于存取路径透明,查询效率往往不如非关系数据模型。
● 关系:一个关系对应一张表(Relation);
● 元组(Tuple):表中的一行即为一个元组;
● 属性(Attribute):表中的一列即为一个属性;
● 主码(Key):唯一确定一个元组属性集合;
● 域(Domain):属性的取值范围;
● 分量:元组中的一个属性值;
● 关系模式:对关系的描述基本形式,关系名 (属性1,属性2,...,属性n)示例:学生(学号,姓名,年龄,性别,系,年级);
● 关系的规范化理论-属性的原子性,即属性是不可再分,表中不再包含表同一关系中属性唯一性;
● 关系中元组唯一性关系中元组的有限性;
● 关系中元组次序无关紧要;
● 关系中属性次序无关紧要
6.3 数据存储与查询
- 存储管理器在数据库系统中负责在数据库中存储的低层数据与应用程序以及向系统提交的查询之间提供接口的部件,负责数据库中数据的存储、检索和更新。存储管理器部件包括以下四个:
(1)权限及完整性管理器:检查访问数据库的用户权限,检测数据是否满足完整性约束;
(2)事务管理器:保证一旦发生故障,数据库的一致性状态,以及并发事务执行时不发生冲突(3)文件管理器:管理磁盘存储空间的分配。
(4)缓冲区管理器:负责将数据从硬盘放入内存,并决定哪些数据应被缓冲区放入内存 - 查询处理器其组件包括:
DDL解释器:解释DDL语句并将其放入数据字典中;
DML编译器:将查询语言中的DML语句翻译为一个计算方案,包括一系列查询计算引擎能理解的命令。
6.4 数据仓库与数据挖掘基础知识
6.4.1 数据仓库
- 数据仓库四大特点:
(1)面向主题:按照一定的主题域进行组织的;
(2)集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)相对稳定的:数据仓库的数据主要供企业决策分析之用所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少通常只需要定期的加载、刷新。
(4)反映历史变化:数据仓库中的数据通常包含历史信息系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
6.4.2 数据挖掘
- 概念:是从大量数据中发现并提取隐藏在内的,人们事先不知道的但可能有用的信息和知识的一种新技术。
- 目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素。
- 数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术。
- 数据挖掘和传统分析方法的区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。其得到的信息应具有事先未知、有效和可实用3个特征。
- 数据挖掘的应用过程:确定挖掘对象-准备数据-建立模型-数据挖掘-结果分析-知识应用。
数据挖掘分析方法:
(1)关联分析:关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发牛。
(2)序列分析:序列分析主要用于发现一定时间间隔内接连发生的事件,这些事件构成一个序列,发现的序列应该具有普遍意义。
(3)分类分析:分类分析通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。分类分析时首先为每个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。
(4)聚类分析:聚类分析是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程。
数据挖掘算法(了解分类即可) :
● EM:在概率模型中寻找参数最大似然估计的算法;
● Apriori:先验算法是关联规则学习的经典算法之一;
● K-means:是非监督学习中的聚类算法;
● SVM:中文名为支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析;
● 决策树:典型的分类算法。
6.4.3 商业智能BI
BI系统主要包括数据预处理、数据分析和数据展现四个主要阶段建立数据仓库。
- 数据预处理是整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL过程);
- 建立数据仓库则是处理海量数据的基础;
- 数据分析是体现系统智能的关键,一般采用联机分析处理(OLAP)和数据挖掘两大技术。联机分析理不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以便地对海量数据进行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题;
- 数据据展现:在海量数据和分析手段增多的情况下,数据展现则主要保障系统分析结果的可视化。