在操作系统中,全局描述符是什么?GDT又是什么?在进入保护模式之前,准备好GDT和GDT中的描述符是必须的吗?用汇编代码怎么创建描述符?本文解答上面几个问题。
在实模式下,CPU是16位的,意思是,寄存器是16位的,数组总线(data bus)是16位的,但地址总线是20位的。物理内存地址的计算公式是:
$$
物理地址 = 段地址 * 16 + 偏移量
$$
段地址和偏移量都是16位的,能寻址的最大内存地址是1M。
1M是怎么计算出来的?2的20次方就是1M,能表示的内存地址是 0~(2的20次方-1)。用简单例子来理解,1位十进制数能表示的最大数是10 - 1 = 9,但1位十进制数能表示的数却是 0
,和 1-9
,总计10个数字。
若一个内存地址是20:30
,最终内存地址是:20 * 16 + 30
。
在保护模式下,内存地址仍然用“段地址:偏移量”的方式来表示。不过,“段地址”的含义不同于实模式下的“段地址”。在实模式下,段地址是物理地址的高地址部分,具体说,是高16位部分。而在保护模式下,段地址是选择子,指向一个结构,这个结构描述了一个内存区域,告知该区域的内存地址从哪里开始,在哪里结束,还告知了这片内存能不能被访问、能不能被读取等数据。这个结构组成一个集合,叫GDT,而这个结构叫GDT项,它有一个术语,叫“描述符”。
GDT的作用是提供段式存储机制。段式存储机制由段寄存器和GDT共同提供。段寄存器提供段值,即描述符在GDT中的索引,也就是选择子。根据选择子在GDT中找到目标描述符。这个描述符中包含一段内存的初始地址、这段内存的最大地址、这段内存的属性。
GDT的构成
GDT项即全局描述符的长度是8个字节,64个bit,64个位,064位。下图是写了位编号的8个字节。真实的全局描述符是不折行的,这里无法在一行显示全部数据,因此折行了。
63|62|61|60|59|58|57|56| 55|54|53|52|51|50|49|48| 47|46|45|44|43|42|41|40| 39|38|37|36|35|34|33|32| 31|30|29|28|27|26|25|24| 23|22|21|20|19|18|17|16| 15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|
15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|
。段界限1。段界限的 0~15 位。描述符的 0~15 位。
39|38|37|36|35|34|33|32| 31|30|29|28|27|26|25|24| 23|22|21|20|19|18|17|16|
。段基址1。段基址的 0~23位。描述符的 16~39位。
55|54|53|52|51|50|49|48| 47|46|45|44|43|42|41|40|
。很复杂,很碎片化,需进一步放大观察。
43|42|41|40|
,TYPE。4位。
44
,S。是否为系统段(待验证)。1位。
46|45
,DPL。2位。
47
,P。1位。
上面是一个字节,下面是第二个字节。
51|50|49|48|
。段界限2。段界限的第 16~19 位。描述符的第 48~51 位。段界限一共有20位。
52
。AVL。1位。
53
。0。1位。
54
。D/B。1位。
55
。G。1位。
段属性占用空间的位数:4 + 1 + 2 + 1 + 1 + 1 * 3 = 12。
63|62|61|60|59|58|57|56|
。段基址2。段基址的第 24~31 位。描述符的第 56~63 位。段基址一共有32位。
描述符的结构比较复杂,要记住它,有点困难,不过并非不可能记住。作者觉得没有必要一个字节不差地背诵出来。
选择子
描述符的选择子的长度是16位。
15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|
01|00|
,RPL。
02
,T1。
15|14|13|12|11|10|09|08| 07|06|05|04|03
,描述符在GDT中的索引。
段式存储机制的寻址方式
段地址存储的是描述符的选择子,根据选择子能找到GDT中对应的描述符。从描述符中获取段基址,然后加上段式存储机制中的偏移量,就是线性地址。在当前语境下,线性地址等同物理地址。
概念比较
逻辑地址。段式机制的地址,例如“段地址:偏移量”,就是逻辑地址。
线性地址。在保护模式下,用逻辑地址中的段地址从GDT中找到描述符,然后从描述符中获取段的基址,段基址加上偏移量的结果就是线性地址。
如上文所言,线性地址目前可视为物理地址。开启分页机制后,线性地址不能等同于物理地址。物理地址是物理内存的一个编号。
作者的疑问
进入保护模式前,为什么需要创建好描述符、选择子、GDT?这些是必要条件吗?
作者曾认为这些不是必须。再次了解段式存储机制后,改变了看法:进入保护模式前,必须准备好GDT、描述符和描述符选择子。这是由保护模式下的内存寻址方式决定的。
无论是在实模式下还是保护模式下,都需要使用内存。在保护模式下,怎么找到某片内存呢?保护模式下,使用段式机制。回忆一下,段式存储机制的寻址方式是:
$$
段地址(选择子)-----》在GDT中找到描述符----》在描述符中找到段基址----》段基址+偏移量 = 线性地址
$$
不在进入保护模式前准备好选择子、GDT、描述符,就无法在保护模式中使用内存。
作者还有一个疑问:上面的寻址过程是CPU自动完成的吗?
实现描述符
C语言
描述符
下面内容的前提是,32位CPU。
struct {
int segmentLimit1:16; // 段界限1
int segmentBaseAddress1:24; // 段基址1
char attributeType:4; // 段属性,TYPE
char attributeS:1; // 段属性,S
char attributeDPL:2; // 段属性,DPL
char attributeP:1; // 段属性,P
char segmentLimit2:4; // 段界限2
char attributeAVL:1; // 段属性,AVL
char attributeZero:1; // 段属性,值为0
char attributeDB:1; // 段属性,DB
char attributeG:1; // 段属性,G
char segmentBaseAddress2; // 段基址2
}GlobalDescriptor;
上面的用法是错误的。对位域的使用是错的,换成int来使用位域也无能力写正确,因为太麻烦。在这个知识点耗费了不少时间。
参考书中代码后,写出下面的代码:
struct{
unsigned short segmentLimitLow; // 段界限1,16位,0~15 位。描述符的第 0~15 位。
unsigned short segmentBaseAddressLow; // 段基址低16位,0~15 位。描述符的第 16~31 位。
unsigned char segmentBaseAddressMid; // 段基址 16~23 位。描述符的第 32~39 位。
unsigned char attribute; // 段属性。描述符的第 40~47 位。
unsigned char segmentLimitHight_attribute2; // 段界限 16~19 位,第 20~23 位是段属性。描述符的第 48~55 位。
unsigned char segmentBaseAddressHigh; // 段基址 24~31 位。描述符的第 46~63 位。
}GlobalDescriptor;
段基址虽然存储在描述符的第 16~39 位 和第 24~31 位两段连续的空间中,但用C语言表示它的时候,却人为地将它拆分成了“低位”、“中位”和“高位”三部分,也就是,把描述符的第 16~39 位拆分成了第 16~31 位和第 32~39 位两段。在C语言中,没有现成的能存储23位的整数类型,却用能存储16位和8位的整数类型。将段基址连在一起的24位拆分,用C语言表示更方便。
C语言中的位域
前面已经用到了位域,那就简单学习一下位域的知识吧。
用两段代码开始。
struct{
unsigned int age;
unsigned int height;
}Person;
struct{
unsigned int age:3;
unsigned int height:4;
}Person2;
第二段代码使用了位域,第一段代码是普通的struct
结构。位域语法与struct
的差异仅在于声明成员变量的语法不同。
struct
结构中,声明成员变量的语法是unsigned int age
。在位域中,声明成员变量的语法是unsigned int age:3
。后者指定了成员变量使用的bit的数量,是3个,而不是1个字节、8个bit。
第一段代码创建的Person
占用8个字节,第二段代码创建的Person2
占用4个字节。
抽象出位域的成员变量的声明语法:dataType VariableName:bitCount
。dataType
只能是int
系列的整数类型,即只能是int
、unsigned int
和 signed int
三种类型,不能是char
等类型。这是语法规定。bitCount
不能超过8个字节。
nasm汇编
用汇编语言表示描述符,是作者写本文的终极目的,前面的一切都是铺垫和基础。C语言表示描述符,在前面写出来,是因为它是作者理解描述符的汇编代码的大功臣。作者在看描述符的汇编代码前,没有学过汇编语言,所以第一次看描述符的汇编代码时,怎么都理解不了。看了别人写的描述符的C语言代码后,才恍然大悟,突然理解了描述符的的汇编代码。
所以,在前文给出描述符的C代码,一是为了纪念这个大功臣,二是让与曾经看不懂汇编代码的作者一样的读者也能借住C代码理解汇编代码。当然,可能是作者多虑了,读者朋友才不会像作者这么愚钝呢。
不使用宏
第一个问题,创建一个描述符,例如DESC_VIDEO
,语法是什么样的。
第二个问题。描述符的实质是段基址、段界限和段属性。是直接用代码堆砌出描述符呢还是根据给定的段基址、段界限和段属性经过运算拼凑出描述符?
先解答第二个问题。直接用代码堆砌出描述符的汇编代码如下:
DESC_VIDEO dw 3120h ; 描述符的第 0~15 位
dw 111Fh ; 描述符的第 16~31 位
db EFh ; 描述符的第 32~39 位
db 42h ; 描述符的第 40~47 位
db 00h ; 描述符的第 48~55 位
db FFh ; 描述符的第 56~63 位
与前面的C代码比较,每行对应一个struct的成员变量。从上面的汇编代码能看出段基址、段界限和段属性是什么吗?看不出来,需要计算。而且,总不能拿到给定的段基址、段界限和段属性后,先将它们转换成二进制,然后再分割填到上面的代码中吧?最好是给定段基址、段界限和段属性后,经过一段代码处理,就自动构建了描述符。这就是下面要写的方式。
宏
汇编中的宏类似C语言中的函数,给定参数,函数会完成一些功能。这个宏接收段基址、段界限和段属性,然后生成描述符。
宏的语法是什么样的?创建一个宏的模板是:
%macro macroName paramCount
;some code
;some code
%endmacro
创建描述符的宏是:
; 三个参数依次是:base(段基址)、limit(段界限)、attribute(段属性)
; 在宏中需用到这三个参数时,对应的代号分别是:%1、%2、%3。
; base--32位,limit--20位,attribute--12位
%macro Descriptor 3
dw %2 & FFFFh ; 段界限的第 0~15 位。16位
dw %1 & FFFFh ; 段基址的第 0~15 位。16位。
db (%1 & FF0000h) >> 16 ; 段基址的第 16~23 位。8位。
db %3 & FFh ; 段属性的第 0~7 位。48位。
db (%2 & F0000) | (%3 >> 8) ; 段界限的第 16~20 位 和 段属性的第 8~11 位。56位。
db %1 >> 24 ; 段基址的第 24~31 位。8位。
%endmacro
使用这个宏创建一个描述符,代码如下:
DESC_VIDEO: Descriptor 0B8000h 0ffff 0
段属性是随便设置的。描述符的段属性比较复杂。作者暂时没有弄清楚。