在操作系统中,全局描述符是什么?GDT又是什么?在进入保护模式之前,准备好GDT和GDT中的描述符是必须的吗?用汇编代码怎么创建描述符?本文解答上面几个问题。

在实模式下,CPU是16位的,意思是,寄存器是16位的,数组总线(data bus)是16位的,但地址总线是20位的。物理内存地址的计算公式是:
$$
物理地址 = 段地址 * 16 + 偏移量
$$
段地址和偏移量都是16位的,能寻址的最大内存地址是1M。

1M是怎么计算出来的?2的20次方就是1M,能表示的内存地址是 0~(2的20次方-1)。用简单例子来理解,1位十进制数能表示的最大数是10 - 1 = 9,但1位十进制数能表示的数却是 0 ,和 1-9 ,总计10个数字。

若一个内存地址是20:30,最终内存地址是:20 * 16 + 30

在保护模式下,内存地址仍然用“段地址:偏移量”的方式来表示。不过,“段地址”的含义不同于实模式下的“段地址”。在实模式下,段地址是物理地址的高地址部分,具体说,是高16位部分。而在保护模式下,段地址是选择子,指向一个结构,这个结构描述了一个内存区域,告知该区域的内存地址从哪里开始,在哪里结束,还告知了这片内存能不能被访问、能不能被读取等数据。这个结构组成一个集合,叫GDT,而这个结构叫GDT项,它有一个术语,叫“描述符”。

GDT的作用是提供段式存储机制。段式存储机制由段寄存器和GDT共同提供。段寄存器提供段值,即描述符在GDT中的索引,也就是选择子。根据选择子在GDT中找到目标描述符。这个描述符中包含一段内存的初始地址、这段内存的最大地址、这段内存的属性。

GDT的构成

GDT项即全局描述符的长度是8个字节,64个bit,64个位,064位。下图是写了位编号的8个字节。真实的全局描述符是不折行的,这里无法在一行显示全部数据,因此折行了。

63|62|61|60|59|58|57|56| 55|54|53|52|51|50|49|48| 47|46|45|44|43|42|41|40| 39|38|37|36|35|34|33|32| 31|30|29|28|27|26|25|24| 23|22|21|20|19|18|17|16| 15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|

15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|。段界限1。段界限的 0~15 位。描述符的 0~15 位。

39|38|37|36|35|34|33|32| 31|30|29|28|27|26|25|24| 23|22|21|20|19|18|17|16|。段基址1。段基址的 0~23位。描述符的 16~39位。

55|54|53|52|51|50|49|48| 47|46|45|44|43|42|41|40|。很复杂,很碎片化,需进一步放大观察。

43|42|41|40|,TYPE。4位。

44,S。是否为系统段(待验证)。1位。

46|45,DPL。2位。

47,P。1位。

上面是一个字节,下面是第二个字节。

51|50|49|48|。段界限2。段界限的第 16~19 位。描述符的第 48~51 位。段界限一共有20位。

52。AVL。1位。

53。0。1位。

54。D/B。1位。

55。G。1位。

段属性占用空间的位数:4 + 1 + 2 + 1 + 1 + 1 * 3 = 12。

63|62|61|60|59|58|57|56|。段基址2。段基址的第 24~31 位。描述符的第 56~63 位。段基址一共有32位。

描述符的结构比较复杂,要记住它,有点困难,不过并非不可能记住。作者觉得没有必要一个字节不差地背诵出来。

选择子

描述符的选择子的长度是16位。

15|14|13|12|11|10|09|08| 07|06|05|04|03|02|01|00|

01|00|,RPL。

02,T1。

15|14|13|12|11|10|09|08| 07|06|05|04|03,描述符在GDT中的索引。

段式存储机制的寻址方式

段地址存储的是描述符的选择子,根据选择子能找到GDT中对应的描述符。从描述符中获取段基址,然后加上段式存储机制中的偏移量,就是线性地址。在当前语境下,线性地址等同物理地址。

概念比较

逻辑地址。段式机制的地址,例如“段地址:偏移量”,就是逻辑地址。

线性地址。在保护模式下,用逻辑地址中的段地址从GDT中找到描述符,然后从描述符中获取段的基址,段基址加上偏移量的结果就是线性地址。

如上文所言,线性地址目前可视为物理地址。开启分页机制后,线性地址不能等同于物理地址。物理地址是物理内存的一个编号。

作者的疑问

进入保护模式前,为什么需要创建好描述符、选择子、GDT?这些是必要条件吗?

作者曾认为这些不是必须。再次了解段式存储机制后,改变了看法:进入保护模式前,必须准备好GDT、描述符和描述符选择子。这是由保护模式下的内存寻址方式决定的。

无论是在实模式下还是保护模式下,都需要使用内存。在保护模式下,怎么找到某片内存呢?保护模式下,使用段式机制。回忆一下,段式存储机制的寻址方式是:
$$
段地址(选择子)-----》在GDT中找到描述符----》在描述符中找到段基址----》段基址+偏移量 = 线性地址
$$
不在进入保护模式前准备好选择子、GDT、描述符,就无法在保护模式中使用内存。

作者还有一个疑问:上面的寻址过程是CPU自动完成的吗?

实现描述符

C语言
描述符

下面内容的前提是,32位CPU。

struct {
	int segmentLimit1:16;															// 段界限1
  int segmentBaseAddress1:24;											// 段基址1
  char attributeType:4;														// 段属性,TYPE
  char attributeS:1;															// 段属性,S
  char attributeDPL:2;														// 段属性,DPL
  char attributeP:1;															// 段属性,P
  char segmentLimit2:4;														// 段界限2
  char attributeAVL:1;														// 段属性,AVL
  char attributeZero:1;														// 段属性,值为0
  char attributeDB:1;															// 段属性,DB
  char attributeG:1;															// 段属性,G
  char segmentBaseAddress2;												// 段基址2
}GlobalDescriptor;

上面的用法是错误的。对位域的使用是错的,换成int来使用位域也无能力写正确,因为太麻烦。在这个知识点耗费了不少时间。

参考书中代码后,写出下面的代码:

struct{
  unsigned short segmentLimitLow;															// 段界限1,16位,0~15 位。描述符的第 0~15 位。
  unsigned short segmentBaseAddressLow;												// 段基址低16位,0~15 位。描述符的第 16~31 位。
  unsigned char	segmentBaseAddressMid;												// 段基址 16~23 位。描述符的第 32~39 位。
  unsigned char attribute;																		// 段属性。描述符的第 40~47 位。
  unsigned char segmentLimitHight_attribute2;				// 段界限 16~19 位,第 20~23 位是段属性。描述符的第 48~55 位。
  unsigned char	segmentBaseAddressHigh;												// 段基址 24~31 位。描述符的第 46~63 位。
}GlobalDescriptor;

段基址虽然存储在描述符的第 16~39 位 和第 24~31 位两段连续的空间中,但用C语言表示它的时候,却人为地将它拆分成了“低位”、“中位”和“高位”三部分,也就是,把描述符的第 16~39 位拆分成了第 16~31 位和第 32~39 位两段。在C语言中,没有现成的能存储23位的整数类型,却用能存储16位和8位的整数类型。将段基址连在一起的24位拆分,用C语言表示更方便。

C语言中的位域

前面已经用到了位域,那就简单学习一下位域的知识吧。

用两段代码开始。

struct{
	unsigned int age;
	unsigned int height;
}Person;
struct{
	unsigned int age:3;
  unsigned int height:4;
}Person2;

第二段代码使用了位域,第一段代码是普通的struct结构。位域语法与struct的差异仅在于声明成员变量的语法不同。

struct结构中,声明成员变量的语法是unsigned int age。在位域中,声明成员变量的语法是unsigned int age:3。后者指定了成员变量使用的bit的数量,是3个,而不是1个字节、8个bit。

第一段代码创建的Person占用8个字节,第二段代码创建的Person2占用4个字节。

抽象出位域的成员变量的声明语法:dataType VariableName:bitCountdataType只能是int系列的整数类型,即只能是intunsigned intsigned int 三种类型,不能是char等类型。这是语法规定。bitCount不能超过8个字节。

nasm汇编

用汇编语言表示描述符,是作者写本文的终极目的,前面的一切都是铺垫和基础。C语言表示描述符,在前面写出来,是因为它是作者理解描述符的汇编代码的大功臣。作者在看描述符的汇编代码前,没有学过汇编语言,所以第一次看描述符的汇编代码时,怎么都理解不了。看了别人写的描述符的C语言代码后,才恍然大悟,突然理解了描述符的的汇编代码。

所以,在前文给出描述符的C代码,一是为了纪念这个大功臣,二是让与曾经看不懂汇编代码的作者一样的读者也能借住C代码理解汇编代码。当然,可能是作者多虑了,读者朋友才不会像作者这么愚钝呢。

不使用宏

第一个问题,创建一个描述符,例如DESC_VIDEO,语法是什么样的。

第二个问题。描述符的实质是段基址、段界限和段属性。是直接用代码堆砌出描述符呢还是根据给定的段基址、段界限和段属性经过运算拼凑出描述符?

先解答第二个问题。直接用代码堆砌出描述符的汇编代码如下:

DESC_VIDEO	dw	3120h																											; 描述符的第 0~15 位
	dw	111Fh																																; 描述符的第 16~31 位
  db	EFh																																	; 描述符的第 32~39 位
  db	42h																																	; 描述符的第 40~47 位
  db	00h																																	; 描述符的第 48~55 位
  db	FFh																																	; 描述符的第 56~63 位

与前面的C代码比较,每行对应一个struct的成员变量。从上面的汇编代码能看出段基址、段界限和段属性是什么吗?看不出来,需要计算。而且,总不能拿到给定的段基址、段界限和段属性后,先将它们转换成二进制,然后再分割填到上面的代码中吧?最好是给定段基址、段界限和段属性后,经过一段代码处理,就自动构建了描述符。这就是下面要写的方式。

汇编中的宏类似C语言中的函数,给定参数,函数会完成一些功能。这个宏接收段基址、段界限和段属性,然后生成描述符。

宏的语法是什么样的?创建一个宏的模板是:

%macro macroName paramCount
	;some code
	;some code
%endmacro

创建描述符的宏是:

; 三个参数依次是:base(段基址)、limit(段界限)、attribute(段属性)
; 在宏中需用到这三个参数时,对应的代号分别是:%1、%2、%3。
; base--32位,limit--20位,attribute--12位
%macro Descriptor	3
	dw	%2 & FFFFh															; 段界限的第 0~15 位。16位
	dw	%1 & FFFFh															; 段基址的第 0~15 位。16位。
	db	(%1 & FF0000h) >> 16										; 段基址的第 16~23 位。8位。
	db	%3 & FFh																; 段属性的第 0~7 位。48位。
	db	(%2 & F0000) | (%3 >> 8) 								; 段界限的第 16~20 位 和 段属性的第 8~11 位。56位。
	db	%1 >> 24																; 段基址的第 24~31 位。8位。
%endmacro

使用这个宏创建一个描述符,代码如下:

DESC_VIDEO:	Descriptor	0B8000h		0ffff			0

段属性是随便设置的。描述符的段属性比较复杂。作者暂时没有弄清楚。

02-06 13:12