浅谈数据库—数据库系统的概述
1.基础概念解释
1.数据与信息
(1)信息的定义。人脑对现实世界事物的存在方式、运动状态以及事物之间的抽象反映。信息是客观存在的,人类有意识的对信息进行采集加工、传递,从而形成了各种消息、情报、指令、数据以及信号。
(2)数据的定义。数据是由用来记录信息的可识别的符号组合的,是信息的具体表现形式。
2.数据处理与数据管理
数据处理是将数据转换成信息的过程,包括对数据的收集、管理、加工、利用乃至信息输出等一系列的活动。其目的之一是从大量的原始数据中抽取和推导出有价值的信息,作为作为决策的依据。目的之二是利用计算机技术科学地保存和管理大量的复杂的数据,以便人们能够方便的利用这些资源。
在数据处理过程中,数据是原料,是输入,信息是产出,是输出。
在数据处理的过程中,数据的·管理过程比较复杂,主要包括数据的分类、组织、编码、存储、维护、检索等操作。
2.数据库技术的产生和发展
1.人工管理阶段。
在只有卡片,纸带和磁带的时代,没有磁盘这类直接存取设备,而且只有汇编语言,没有操作系统和管理数据的软件。
在这个阶段,主要表现为
(1)数据没有专门的存储设备
(2)数据没有专门的管理软件
(3)数据不共享
(4)数据不具有独立性
2.文件系统阶段
此时磁盘磁鼓等存储设备已经问世,而且出现了高级语言和操作系统,操作系统中有了专门管理数据的软件。
这个阶段主要表现为
(1)数据以文件的形式长期保存
(2)由文件系统管理数据
(3)程序和数据之间有了一定的独立性
(4)文件的形式已经多样化
(5)数据具有一定的共享性
但是,不可避免的是,数据的共享性差,数据冗余大,会造成数据的不一致性。数据的独立性差,数据之间的关系弱
3.数据库系统阶段
随着需求的不断扩大,改革发展迫在眉睫,与此同时,硬件的发展为数据库技术的产生和发展提供了物质的条件。于是为了解决多用户、多个应用程序共享数据的需求,数据库技术应用而生。而且出现了统一管理数据的专门软件系统,即数据库管理系统(DBMS)。
在这个阶段主要表现为
(1)结构化的数据及其联系的集合
(2)数据共享性高、冗余低
(3)数据的独立性高
所谓的数据独立性是数据中的数据和应用程序之间相互独立,即数据的逻辑结构,存储结构以及存取方式的改变不影响应用程序。
在数据库系统中,整个数据库结构可分为三级;用户逻辑结构,数据库逻辑结构和物理结构。
数据独立性分为两级;物理独立性,逻辑独立性。
物理独立性是指当数据库的物理结构(如存储结构、存取方式、外部存储设备等)改变时。通过修改映射,使数据库逻辑结构不收影响,进而不影响用户逻辑结构以及应用程序。
逻辑独立性是指当数据库的逻辑结构(修改数据定义、增加新的数据类型、改变数据间的关系等)发生改变时,通过修改映射,用户逻辑结构以及应用程序不用发生改变。
(4)有统一的数据管理和控制功能
3.数据库系统的组成
1.数据库
数据库是存储在计算机内、有组织的、可共享的数据和数据对象(如表、视图、存储过程和触发器等)的集合,这种集合按一定的数据模型(或结构)组织、描述并长期存储,同时能以安全和可靠的方法进行数据的检索和存储。
数据库的特点
(1)集成性。
将某特定的应用环境中的各种应用相关的数据及其数据之间的联系全部集中地并按照一定的建构形式进行存储,或者说,把数据库看成为若干个性质不同的数据文件的联合和统一的数据整体。
(2)共享性。
数据库中的数据可以为多个用户所共享,即多个不同的用户可使用多种不同的语言为了不同的应用目的,而同时存取数据库,甚至同时存取数据库中的同一数据。
2.用户
数据库的使用者,他们可以对数据库进行存储、维护、和检索等操作。主要包括非计算机人员,应用程序员,数据库管理人员(DBA)。
DBA得职责。
(1)参与数据库设计的全过程,决定整个数据库的结构和信息内容
(2)决定数据库的存储结构和存储决策,以获得较高的存取效率和存储空间的利用率
(3)帮助应用程序员使用数据库
(4)定义数据的安全性和完整性约束条件,负责分配各个应用程序对数据库的存储权限,确保数据库的安全性和完整性
(5)监控数据库的运行和使用
(6)改进和重构数据库
3.软件系统
软件主要包括操作系统(OS),数据库管理系统(DBMS),以及应用开发工具以及应用系统等。
4.硬件系统
主要指存储和运行数据库系统的硬件设备包括CPU,内存,大容量的存储设备,输入\输出设备和外部设备等。
4.数据库系统的内部体系结构
1.数据库系统的三级模式结构
1.模式
模式是数据库中全体数据的逻辑的结构和特征的描述,它涉及型的描述,而不涉及具体的值。
模式的具体值称为模式的一个实例。
2.三级模式结构
数据库系统内部的体系从逻辑上分为模式、内模式、外模式三级抽象模式和二级映像功能。
对用户而言,外模式、模式、内模式分别对应一般用户模式、概念模式、物理模式。
(1)模式。
也称为概念模式,是数据库中全体数据的逻辑结构和特征描述,处于三级模式中的中间层,不涉及物理存储的细节和硬件环境,与应用程序,所使用的应用开发工具以及高级程序设计语言(C等)无关。
一个数据库只有一个模式,因为它是整个数据库在逻辑上的视图。模式是对现实世界的一个抽象。
(2)外模式。
又称子模式或者用户模式,是三级结构中的最外层,是数据库用户能看到并允许使用的部分数据的逻辑结构和特征的描述,是与某一应用有关的数据逻辑表示,也就是数据库用户的数据视图,即用户视图。
外模式一般是模式的子集,一个数据库可以有多个外模式。同一个外模式也可以对应多个应用系统使用。
(3)内模式。
又称存储模式或者物理模式,是三级结构中的最内层,也是靠近物理存储的一层,即与实际存储数据方式有关的一层。它是对数据库存储结构的描述,是数据库内部的表示方式。
在数据库系统中,外模式可以有多个,而模式,内模式各只能有一个。内模式是数据库实际存储的表示,而模式是整个数据库实际存储的抽象表示,外模式是模式的某一部分的抽象表示。
2.数据库系统的二级映像与数据独立性
1.外模式\模式映像。
它确定了数据的局部逻辑和全局逻辑之间的对应关系。
2.模式\内模式映像
它确定了数据全局逻辑结构和存储结构之间的对应关系。
3.数据库系统的三级模式与二级映像的优点
(1)保证数据库的独立性
(2)简化了用户接口
(3)有利于数据共享
(4)有利于数据的安全保密
4.数据库管理系统(DBMS)
1.主要功能
数据库管理系统是对数据进行管理的大兴系统软件,是数据库系统的核心组成部分,主要的功能包括,数据定义功能、数据操纵功能、数据库运行管理功能、数据库的建立和维护功能、数据通信接口及数据组织、存储、管理功能。
1.数据定义
(1)定义数据的模式、外模式、内模式、三级结构。
(2)定义二级映像
(3)定义有关的约束条件
2.数据操纵功能
基本操作包括,检索,更新(插入、修改、删除等),等。
3.数据库的运行管理功能
DBMS对数据库管理主要通过四个方面实现
(1)数据的安全性控制
(2)数据的完整性控制
(3)多用户环境下数据并发性控制
(4)数据库的恢复
数据库的建立和维护
(1)数据库的建立包括数据库的初始数据的装入和数据转换等。
(2)数据库的维护包括数据库的转储、恢复、重组织和重构造、系统性能监视和分析等。
数据通信接口
数据组织、存储和管理。
2.DBMS的组成
1.语言编译处理程序
2.系统运行控制程序
3.系统建立、维护程序
4.数据字典
数据字典用来描述数据库中有关信息的数据目录,包括三级模式、数据类型、用户名和用户权限等有关数据库系统的信息,起着系统状态目录表的作用,帮助用户,DBA,和DBMS本身使用和管理数据库。
3.DBMS数据存取过程
5.数据模型
数据模型是数据库的框架,该框架描述了数据及其联系的组织方式、表达方式、和存取路径,各种机器上实现的DBMS软件都是基于某种数据模型的,它的数据结构直接影响到数据库系统其它部分的性能,也是数据定义和数据操纵语言的基础。
1.数据模型的分类
(1)概念模型
是对现实世界的第一层抽象,也称为信息模型,是按照用户的观点对信息贺数据建模。
(2)逻辑模型
属于计算机世界的模型。是按照计算机的观点对数据建模,是对现实世界的第二级抽象,有严格的定义,以便于在计算机中实现。
2.数据模型的组成要素
1.数据结构
数据结构描述了数据库的组成对象以及对象之间联系,即数据字典一方面描述的是数据对象的类型内容、性质等,另一方面是描述数据对象之间的联系。
2.数据操作
数据操作是指对数据库中的各种允许执行的操作集合,包括操作以及相应的操作规则,描述了数据库的动态性。
3.数据的完整性约束
数据的完整性约束条件是一组完整性规则的集合。完整性规则是给定数据模型中数据及其联系所具有的制约和依存规则。用以限定符合数据模型的数据库状态的变化,以保证数据的正确
有效、相容。
一方面,数据模型应该反映和规定本数据模型必须遵守的基本的和通用的完整性约束条件。
另一方面,数据模型还应该提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
6.三个世界以及相关概念
1.现实世界
客观存在世界。在现实世界之中事物之间是相互联系的。
2.信息世界
信息世界是现实世界在人们头脑中的反映,经过人脑的分析、归纳、抽象形成信息,人们对这些信息金星记录、整理、归类和格式化后,就构成了信息世界。
1.主要的概念
(1)实体。客观存在的并且可以相互区别的事物称为实体。
(2)属性。是体所具有的某一特性称为属性。
(3)实体型。用实体名以及属性名集合来抽象和描述同类实体称为实体型。
(4)实体集。同型实体的集合称为实体集。
(5)码(key)。在实体型中能唯一标识一个试题的属性或者属性集称为实体的码。
(6)域。某一属性的取值范围称为域。
(7)联系。
两个实体之间的联系有。一对一、一对多、多对多。
3.计算机世界
计算机世界是信息世界中信息的数据化,就是将信息用字符和数值等数据表示,便于存储在计算机中由计算机进行识别和处理
1.常用的概念
(1)字段。数据项(列),标记实体属性的命名单位。
(2)记录。字段的有序集合称为记录(行)。
(3)文件。同一类记录的集合称之为文件。
(4)关键字。能唯一标识文件中每个记录的字段或者字段的集合称之为关键字。
7.四种数据模型
1.层次模型
层次模型用树形数据结构来表示各类实体以及实体之间联系。
2.网状模型
网状模型采用有向图结构表示记录型与记录型之间联系的数据模型。
3.关系模型
关系模型的数据结构是一张规范化的二维表。
基本概念
(1)元组。二维表中的一行。
(2)属性。二维表中的一列。
(3)域。属性的取值范围。
(4)分量。每一行元组对应列的属性值,即为元组中的一个属性值。
(5)候选码。如果一个关系中的一个元组能被一格属性或者属性组合唯一标识,则称该属性或者属性组合为候选码。
(6)主码’一个关系中有多个候选码时可以从中选择一个候选码作为主码。一个关系上只能有一个主码。
(7)关系模式。关系模式分解是对关系的描述,一般表示为 关系(属性1,属性2,属性3……属性n)
(8)关系实例。关系实例就是关系模式的值,是关系的数据,相当于二维表中的数据。
4.面向对象模型
面向对象数据库是面向对象概念和数据库技术相结合的产物。
基本概念
1.对象
对象是现实世界中实体的模型化。每一对象都由唯一的对象标识来识别,用于确定和检索这个对象,它把这个对象的状态、行为封装在一起。其中,对象的状态是该对象属性值的集合,对象的行为是在对象状态上操作的方法集。
2.类
具有同样属性和方法集的所有对象构成一个对象类(简称类),一个对象是某一类的实例。
8.数据库领域的新技术
1.分布式数据库
2.数据仓库与数据挖掘
3.多媒体数据库
为 关系(属性1,属性2,属性3……属性n)
(8)关系实例。关系实例就是关系模式的值,是关系的数据,相当于二维表中的数据。
4.面向对象模型
面向对象数据库是面向对象概念和数据库技术相结合的产物。
基本概念
1.对象
对象是现实世界中实体的模型化。每一对象都由唯一的对象标识来识别,用于确定和检索这个对象,它把这个对象的状态、行为封装在一起。其中,对象的状态是该对象属性值的集合,对象的行为是在对象状态上操作的方法集。
2.类
具有同样属性和方法集的所有对象构成一个对象类(简称类),一个对象是某一类的实例。
8.数据库领域的新技术
1.分布式数据库
2.数据仓库与数据挖掘
3.多媒体数据库
4.大数据技术