引言
我们都知道,mysql中的索引,事务,锁等都是作为开发人员要重点掌握的知识面,但要想掌握理解好这些知识却并非易事。
其中原因之一就是这些概念都过于抽象,事实上如果都不懂mysql数据是以一种怎样结构存储的,就直接去学习索引等模块,如此理解起来自然是事倍功半的。
因此本文的目的有两点:
- 揭露数据存储的格式
- 说明Mysql是如何读取数据
在正文开始之前要先明确一点,Mysql有很多存储引擎,不同的存储引擎对于数据的存放格式是不一样的,目前Mysql的存储引擎默认是InnoDB,因此本文主要以InnoDB的角度去讲解。
行格式
我们经常会说往表中插入一条数据,实际上InnoDB数据存储的基本单位其实就是一条数据。这行数据在磁盘上存储的格式就叫做行格式。
InnoDB设计了4种行格式,分别是Compact、Redundant、Dynamic和Compressed行格式,接下来我们会重点讲解Compact,同时它也是最常用的行格式。
COMPACT行格式
直接先看一张图:
看图说话,Compact行格式可以分为两大块:
- 额外信息
- 真实数据
所谓真实数据自然就是我们要存放的值,而额外信息存储的是对这行记录的一些描述。
其中额外信息包括变长字段长度列表,NULL值列表,记录头信息。
变长字段长度列表
在Mysql有一些数据类型,比如VARCHAR(M)、TEXT等,它们是属于支持变长的数据类型,实际使用的字节数是不固定的。所以Mysql需要把这些类型的列实际使用了多少字节数给记录下来,记录的地方就是在变长字段长度列表。
在Compact行格式中,把所有变长字段的真实数据占用的字节长度都存放在记录的开头部位,从而形成一个变长字段长度列表,各变长字段数据占用的字节数按照列的顺序==逆序==存放。
举个例子,我们创建个表
CREATE TABLE record_format_demo (
-> c1 VARCHAR(10),
-> c2 VARCHAR(10) NOT NULL,
-> c3 CHAR(10),
-> c4 VARCHAR(10)
-> )
可以看到c1,c2,c4列都是变长的,此时我们插入一条数据
INSERT INTO record_format_demo(c1, c2, c3, c4) VALUES('aaaa', 'bbb', 'cc', 'd')
我们假定内容占用的字节为
所以这条记录的存储格式就为
可以看到变长字段长度列表是逆序(c4->c2->c1)排放的。
因此要计算1个变长字段到底占用了多少空间要计算两部分:
- 真实数据占用的空间
- 记录真实数据占用空间所使用的字节数
以列C1为例:
占用字节数='aaaa'(4字节)+ '0x04'(1字节)
NULL值列表
我们知道表中的某些列可能存储NULL值,如果把这些NULL值都放到记录的真实数据中存储会很占地方,所以Compact行格式把这些值为NULL的列统一管理起来,存储到NULL值列表中。
每个允许存储NULL的列对应一个二进制位,二进制位按照列的顺序逆序排列,,二进制位表示的意义如下:
- 二进制位的值为1时,代表该列的值为NULL。
- 二进制位的值为0时,代表该列的值不为NULL。
我们在来插入一条记录
INSERT INTO record_format_demo(c1, c2, c3, c4) VALUES('aaaa', 'bbb', null, null)
因此这条记录的null值列表就是:
行格式就是:
可以看到二进制110就是十进制的6.
记录头信息
记录头信息,它是由固定的5个字节组成。5个字节也就是40个二进制位,不同的位代表不同的意思。本文不会细讲,在后续的文章中有涉及再说讲解。
真实数据
真实数据除了c1、c2、c3、c4这几个我们自己定义的列的数据以外,其实MySQL会为每个记录默认的添加一些列(也称为隐藏列),具体的列如下:
transaction_id和roll_pointer的作用将会在后面提及。
而row_id这个列只有在表没有自定义主键并且Unique键的情况下才会添加,作为表的主键。