线性变换是线性代数的核心概念,包含的内容和结论十分丰富。之前的讨论其实已经比较完备了,但这里我还是想把它的主要脉络再梳理一遍,然后再补充一些重要的问题和结论。

1. 线性变换和不变子空间

1.1 线性变换

  线性变换\(\mathscr{A}\alpha\)(或线性映射)的概念自无需多说,它是线性空间\(V\)之间的一种映射关系。而映射最重要的概念就是象和原象,尤其是变换的象\(\mathscr{A}V\)与核\(\text{Ker}\mathscr{A}\),通过关系式(1)搭建起了变换\(\mathscr{A}\)的基本机构。它直观地描述了线性变换在维度上的意义,你可以轻松说出\(V,\,\text{Ker}\mathscr{A},\,\mathscr{A}V\)三者之间的关系。更甚地,可以把\(V\)表示成某个直交和\(\text{Ker}\mathscr{A}\oplus U\),而这里\(U\)必定与\(\mathscr{A}V\)同构。这个简单的关系很容易被忽略,但它在复合变换的论证中起到了核心的作用,比如关于复合变换的秩(象的维数)的估算,再比如后面关于幂零变换的归纳法证明。

\[V/\text{Ker}\mathscr{A}\cong\mathscr{A}V\tag{1}\]

  式(1)说明,变换使得\(V\)的维数减少了\(\text{dim}(\text{Ker}\mathscr{A})\),这个角度非常便于讨论复合变换的秩。对于复合变换\(\mathscr{AB}\),它的秩显然有上界\(\max\{\text{rank}\mathscr{A},\text{rank}\mathscr{B}\}\)。从维度减少的角度,不难有式(2)的上界式,从而轻松得到复合变换秩的下界式(3)。使用这个角度,你可以尝试一下下面的两个问题。

\[\text{dim}(\text{Ker}\mathscr{AB})\leqslant\text{dim}(\text{Ker}\mathscr{A})+\text{dim}(\text{Ker}\mathscr{B})\tag{2}\]

\[\text{rank}(\mathscr{AB})\geqslant\text{rank}{\mathscr{A}}+\text{rank}{\mathscr{B}}-\text{dim}(V)\tag{3}\]

  • 如果\(\text{rank}(\mathscr{AB})=\text{rank}(\mathscr{B})\),则对任意变换\(\mathscr{C}\)都有\(\text{rank}(\mathscr{ABC})=\text{rank}(\mathscr{BC})\)。

  • Frobenius不等式:\(\text{rank}(\mathscr{ABC})\geqslant\text{rank}(\mathscr{AB})+\text{rank}(\mathscr{BC})-\text{rank}(\mathscr{B})\)。

  我们知道,任何一个线性变换\(\mathscr{A}\in\text{Hom}(V,V)\),都可以由某组基\(\{\alpha_i\}\)以及它们的象完全确定,并由此得到了这组基下的变换矩阵\(A\)。为了让矩阵运算和变换运算的格式保持一致,把\(a_{ij}\)定义成\(\mathscr{A}\alpha_j\)在\(\alpha_i\)上的坐标。如果再把所有向量\(\alpha\)映射成坐标列向量\(a\),\(\mathscr{A}\alpha\)的象就是\(Aa\),而变换\(\mathscr{AB}\)的矩阵也正好是\(AB\),这样使用起来就方便多了(后面将不加区分地写成\(A\))。值得提醒的是,变换矩阵是线性变换的一种表示形式,可以更方便地讨论变换的性质;但其并不能完全替代后者,有时反而会让叙述变得繁琐(比如矩阵秩的讨论)。

1.2 不变子空间和最小多项式

  线性变换没有线性映射那样简单的标准式(基于式(1)),因为它的原象和象纠缠在一起(在一个空间)。我们能做的就是找到合适的基,让它们的象和原象划分到尽量多的子空间中,这就是不变子空间的概念(简称\(A\)-子空间)。为了能将\(V\)划分成多个不变子空间,需要用到两个关键的结论。第一个是如果有\(AB=BA\),那么\(BV,\text{Ker}\,B\)都是\(A\)-子空间。特别地,任何多项式\(f(A)\in F[A]\)都与\(A\)可交换,因此\(\text{Ker}\,f(A)\)都是\(A\)-子空间。如果有式(4)左的互质分解,根据多项式的欧几里得定理,不难有式(4)右的分割。

\[f(x)=g(x)h(x),\,(g,h)=1\;\Rightarrow\;\text{Ker}\,f(A)=\text{Ker}\,g(A)\oplus\text{Ker}\,h(A)\tag{4}\]

  第二个是Hamilton-Caylay定理,\(A\)的特征多项式\(\varphi(\lambda)\)满足\(\varphi(A)=0\),即它是一个零化多项式。零化多项式的存在,使得式(4)右的分割可以从整个线性空间\(V\)开始。也就是说,如果零化多项式有互质分解\(\prod g_i(x)\),那么\(V\)可以拆分为线性无关的子空间和\(\oplus\text{Ker}\,g_i(A)\)。为了让问题更简单,我们一般用次数最小的首1零化多项式,即最小多项式\(m(x)\)。根据多项式理论不难证明,\(m(x)\)能整除所有零化多项式。

  另外,零化(最小)多项式的概念也可以定义在单个向量、向量集或子空间上,而且显然\(V\)的零化多项式一定是它(们)的零化多项式。特别地,特征值\(\lambda_i\)的特征子空间\(V_i\)以\((\lambda-\lambda_i)\)为其最小多项式\(m_i(x)\),而\(m(x)\)是\(V_i\)的零化多项式,故而\(m_i(x)|m(x)\),这说明\(m(x)\)含有(复数域上)所有特征项\((\lambda-\lambda_i)\)因子。得到零化多项式最直接的方法,当然是求解以多项式系数为未知数的线性方程组。这个方法没有多大实际意义,但却可以间接说明,一定存在\(V\)的域\(F\)上的解(如果有复数解),从而扩张域\(F\)并不会带来新的最小多项式。

  假设\(m(x)\)有式(5)左的互质分解,则线性空间可以有右式的直和分解,\(V\)的任何向量\(\alpha\)都可以分解为其在\(\text{Ker}\,p_i(x)\)中的投影\(P_i(\alpha)\)的直和。但要注意对一个子空间\(U\)而言,却不能说可以分解为\(P_i(U)\)的直和,直和包含但往往大于\(U\)。当\(U\)是\(A\)-子空间时,利用多项式的互质化1性质,不难构造出\(P_i\)是\(A\)的一个多项式。这时\(U\)也是\(P_i\)的不变子空间,\(P_i(U)\)的直和又包含于\(U\),故而两者是相等的。另外不难看出\(P_i(U)\)就是\(U\cap W_i\),故而不变子空间都有式(6)的直和分解,这就得到结论:\(W_i\)不变子空间的直和构成了全部\(A\)-子空间。

  特别地,如果最小多项式\(m(x)=\prod(\lambda-\lambda_i)\)都是一阶一次的,由核分解法(5)知\(V\)可以被分解为特征空间之和,从而\(A\)可对角化。反之亦成立,故有\(A\)可对角化等价于\(m(x)\)由一次一阶因式组成,这是个极其有效的判断可对角化工具。另外,结合式(6)的结论可知:可对角化变换\(A\)的任意特征向量的直和,构成了全部\(A\)-子空间。

\[m(x)=p_1(x)\cdots p_r(x)\;\Rightarrow \;V=\text{Ker}\,p_1(x)\oplus\cdots\oplus \text{Ker}\,p_r(x)\tag{5}\]

\[U=(U\cap W_1)\oplus\cdots\oplus(U\cap W_r),\;\;W_i=\text{Ker}\,p_i(x)\tag{6}\]

  在得到更深入的结论之前,我们先来开个脑洞。假设变换\(A\)的最小多项式\(p(\lambda)\)是\(r\)阶不可约的,根据多项式的理论,\(F[A]\)是一个以\(p(A)\)为0元的域。而回顾线性空间的定义,它可以建立在任何域上(不限定是数域),如果把\(f(A)\alpha\)视为域\(F(A)\)上的纯量乘法,则\(V\)也可以看成域\(F(A)\)上的线性空间!只是要注意,\(F[A]\)在原始域上的维度是\(r\),所以\(V\)在域\(F[A]\)上是\(\dfrac{n}{r}\)维的。这个神奇的角度可以让变换\(f(A)\)如纯量一样自由使用,带来许多意想不到的效果,以下先举一例,本篇的最后会再次用到。

  任何子空间都有补空间,但任何\(A\)-子空间却不一定有\(A\)-补空间。比如幂次为\(r>1\)的幂零变换\(A\),它有非平凡的\(A\)-子空间\(U=\text{Ker}(A^{r-1})\),任何子空间的象都是探索到\(U\)里。所以\(U\)的\(A\)-补空间\(W\ne 0\)必须满足\(AW=0\),故\(W\subseteq U\),导致矛盾。这个结论能扩展到更一般都情况,对于满足\(g^r(A)=0,(r>1)\)的变换,非平凡\(A\)-子空间\(g(A)V\)没有\(A\)-补空间。如果要求所有\(A\)-子空间都有\(A\)-不空间(称为半单变换),则最小多项式所有项的幂次必须为1(否则可以构造出如上的\(g(\lambda)\))。

  反之,对于\(m(\lambda)=\prod p_i(\lambda)\)的变换(\(p_i(\lambda)\)互质不可约),先将\(V\)分解为\(W_i=\text{Ker}\,p_i(A)\)的直和,并记\(A_i=A\mid W_i\)。根据式(6)有任意\(A\)-子空间\(U\)都由\(U_i=U\cap W_i\)直交而成,为了找到\(U_i\)在\(W_i\)上的\(A\)-补空间,把\(W_i\)看成域\(F[A_i]\)上的线性空间。由于\(W_i,U\)都是\(f(A)\in F[A]\)的不变子空间,故\(U_i\)也是\(W_i\)在域\(F[A_i]\)上的子空间,取它的补空间\(G_i\),它显然是个\(A\)-子空间。所以在原始域上,\(U_i\)总有\(A\)-补空间\(G_i\),这时\(G=\oplus G_i\)就是\(U\)的\(A\)-补空间。总结便有:半单变换的充要条件是最小多项式的不可约项都是1次的。

2. 线性空间的分解

2.1 复数域上的分解

  复数域上的特征多项式都可以分解为一阶多项式幂\((\lambda-\lambda_i)^{l_i}\)的乘积(\(l_i\)叫\(\lambda_i\)的代数重数), 从而\(V\)可以先被分解为若干\(A\)-子空间\(W_i=\text{Ker}\,(A-\lambda_iI)^{l_i}\)的直和。为了方便深入讨论(分解)这样的\(A\)-子空间,记\(A-\lambda_iI\)在\(W_i\)上的变换为\(A_0\)。显然\(A_0\)-子空间也是\(A\)-子空间,而且\(A_0\)是幂零变换(\(A_0^s=0,s\leqslant l_i\))(取最小的\(s\)叫做\(\lambda_i\)的几何重数)),下面只需集中讨论\(W_i\)在\(A_0\)上的分解。

  对于任何\(\alpha\in W_i\),都存在\(A_0^t\alpha=0,(t\leqslant s)\),由此生成强循环子空间\(\langle\alpha,\cdots,A_0^{t-1}\alpha\rangle\)。显然,它的特征多项式和最小多项式都是\(\lambda^t\),而且不能再分割为两个不变子空间。幂零变换下的不可再分割的不变子空间,想必都是这样的强循环子空间,而\(W_i\)应当可以被分解为若干强循环子空间。但简单尝试后发现,从局部开始分割出这些链条是不太可能的(无法解决链条缠绕问题)。另外注意到,每个链条的最后一环\(A_0^{t-1}\alpha\)都是\(0\)特征向量,它们组成了核空间\(K_0=\text{Ker}\,A_0\)。接下来可以在\(K_0\)上使用式(1)降维处理,并通过递归论证找到分解的方法,以下具体讨论。

  考察\(A_0\)在\(W_i/K_0\)上的诱导变换\(A_1\),它也是一个幂等变换\(A_1^{s-1}=0\),但幂次少1,且\(\text{Ker}\,A_1\)(的代表元)都是强循环链条的倒数第二环。以此类推,构造出不同维度的变换\(A_0,\cdots,A_{s-1}=0\),以及它们的核空间\(K_0,\cdots,K_{s-1}\)。这时,强循环链条的每一环(从\(A_0^{t-1}\alpha\)到\(\alpha\)),依次是\(W_i/K_0,\cdots\)的代表元。另外根据诱导变换的结论,这些核空间的代表元(都是\(W_i\)的子空间)是互不相关的,且它们的正交和就是\(W_i\)。

  现在根据这个结构,分解出独立的链条。先从\(K_{s-1}\)的代表元中选出一组基\(\{\alpha_j\}\),它们都能生成最长的强循环链条。由于\(\{\alpha_j\}\)与\(K_{s-2}\)的代表元不相关,通过反证法可以有\(\{A\alpha_j\in K_{s-2}\}\)也不相关,递归可知这些链条的所有元素都是不相关的。接下来再在\(\{\alpha_j\}\)于\(K_{s-2}\)上的补集就行类似的讨论,最终递归构造出互相独立的链条,而链条的所有元素便是\(W_i\)的一组基。需要注意的是,不管基如何选取,不同长度链条(不同维度的强循环子空间)的个数都是确定的。

  回顾整个构造过程,并结合式(1)可知,\(A_{i+1}\)的原象与\(A_i\)的象同构,递推得到\(A_i\)的象同构于\(A_0^{i+1}\),即有\(\text{rank}(A_i)=\text{rank}(A_0^{i+1})\)。重新记\(A_0\)的原象\(W_i\)的维度为\(n\),它就是所有链条的长度和,而\(A_i\)原象的维度则是所有链条截断后\(i\)节后的长度和。首先不难看出链条的个数就是\(K_0\)的维数\(n-\text{rank}(A_0)\),然后记长度为\(r\)的链条的个数是\(n_r\),不难有关系式(7),解此方程组便能得到每个链条的长度。从变换矩阵的角度看,\(A_0\)以链条为基的变换矩阵是一个分块对角矩阵\(D\)。每一个分块对应一个链条,是一个次对角矩阵,且分块的个数和大小也跟链条一致。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\text{rank}(A_0^k),\;(k=0,1,\cdots,s-1)\tag{7}\]

  现在回到\(W_i\)上的变换\(A=A_0+\lambda_iI\),它还是可以按上述链条分割为若干不变子空间,以链条为基的变换矩阵是\(D+\lambda_iI\)。最终不难推导,空间\(V\)上的变换\(A\)也能这样分割,以及有对应的变换矩阵。形如式(8)的矩阵称为Jordan块,由若干Jordan块组成的变换矩阵称为Jordan标准型。以上论证则说明了:任何特征多项式可以分解为一阶因式的线性变换\(A\)(不一定是复数域),都有唯一的Jordan标准型。反过来,也可以用Jordan标准型直观地理解链条分解的论述。

\[J_n(\lambda)=\begin{bmatrix}\lambda&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&\lambda\end{bmatrix}_{n\times n}\tag{8}\]

  Jordan标准型将线性变换“正交分解”,使得问题的讨论可以分化到更小更简单的不变子空间(链条)上,是极其有效的分析工具。比如通过式(9)可知,有Jordan标准型的变换,与其转置变换相似。如果要具体构造标准型,首先从特征多项式得到特征值和重数,然后把式(7)稍作修改,得到每个特征值下的Jordan块。后一步要基于这样的事实:从标准型可以看出,\(A-\lambda_iI\)在其它特征值的链条下都是满秩的。

\[CJ_n(\lambda)C=\begin{bmatrix}\lambda&&&\\1&\ddots&&\\&\ddots&\ddots&\\&&1&\lambda\end{bmatrix};\;C=\begin{bmatrix}&&1\\&{\mathinner{\mkern2mu\raise1pt\hbox{.}\mkern2mu\raise4pt\hbox{.}\mkern2mu\raise7pt\hbox{.}\mkern1mu}}&\\1&&&\end{bmatrix},\;C^2=I\tag{9}\]

2.2 一般域上的分解

  复数域上递归分解的方法可以套用到一般数域,基本思想还是降维递归、提取不相关的循环链条,下面就照着再说一遍。假定\(A\)是\(n\)维线性空间\(V\)上的线性变换,它有最小多项式\(\prod p_i^{s_i}(\lambda)\),其中\(p_i^{s_i}(\lambda)\)是互不相同的不可约因式。先将\(A\)分解为若干\(A\)-子空间\(W_i=\text{Ker}\,p_i^{s_i}(A)\)的直和,然后在每个子空间上继续分解。不失一般性,记这个空间为\(W\),维度为\(n\),\(A\)在其上的变换为\(A_0\),最小多项式\(p^s(\lambda)\)的次数为\(r\)。下面对\(s\)使用第二归纳法递归论证。

  当\(s=1\)时,对所有元素都有\(p(A_0)\alpha=0\)。先构造出循环子空间\(U=\langle\alpha,\cdots,A_0^{r-1}\alpha\rangle\),然后对\(A_0\)在\(W/U\)上的诱导变换进行归纳递归的构造。最终便能得到\(W\)的一组基,它由\(n/r\)个循环链条组成,这就是我们要的最终分解。注意这里的一个链条只相当于复数域场景的一个元素,这就是一般域上的不同之处,也是造成复杂的主要原因。

  当\(s>1\)时,类似地构造出\(K_0=\text{Ker}\,(p(A_0))\),以及\(A_0\)在\(W/K_0\)上的诱导变换\(A_1\)。\(A_1\)的最小多项式是\(p^{s-1}(\lambda)\),按归纳法它可以分解为若干无关的链条,取其一\(\langle\alpha+K_0,\cdots,A_0^{t-1}\alpha+K_0\rangle\)。记\(\alpha+K_0\)的最小多项式为\(q(\lambda)=p^e(\lambda)\),则有\(\beta=q(A_0)\alpha\in K_0\),取其循环链条\(\langle\beta,\cdots,A_0^{r-1}\beta\rangle\)。不难证明\(\beta\)链条与\(\alpha+K_0\)链条的代表元互不相关,且合并后等价于\(\alpha\)链条\(\langle\alpha,\cdots,A_0^{sr-1}\alpha\rangle\),每个这样的\(\alpha+K_0\)链条都能找到对应的\(\beta\)链条,并扩展为更长的\(\alpha\)链条。

  根据所有\(\alpha\)链条的不相关性,用反证法可知它们的\(\beta\)链条也是不相关的。这相当于所有的\(\beta\)链条将\(K_0\)进行了局部分割,而剩下的部分也不难分割为若干长度为\(r\)的\(\alpha\)链条。所有\(\alpha\)的元素互不相关,正好构成了\(W\)的一组基,这就是我们要找的最终分解。每个链条下的变换矩阵有形式(10),它称为Frobinus矩阵,也叫有理块,而有理块组成的变换矩阵叫有理标准型。每个有理块的特征多项式和最小多项式都是\(p^e(\lambda)\),其中\(er=t\),\(a_i\)是\(p^e(\lambda)\)中\(\lambda^i\)的系数。另外如果构造过程中不展开链条,每个分块将是式(11)右的形式(\(H_r\)只有右上角为1),它也被称为广义Jordan块,对应也有广义Jordan标准型

\[C(p(\lambda))=\begin{bmatrix}0&0&\cdots&-a_0\\1&0&\cdots&-a_1\\\vdots&\vdots&\ddots&\vdots\\0&\cdots&1&-a_{t-1}\end{bmatrix}_{t\times t}\tag{10}\]

\[C(p^r(\lambda))\;\sim\;\begin{bmatrix}C(p(\lambda))&&&\\H_r&\ddots&&\\&\ddots&\ddots&\\&&H_r&C(p(\lambda))\end{bmatrix}\tag{11}\]

  最后根据构造链条的过程易知,链条的个数为\(\dfrac{1}{r}\text{dim}\,K_0=\dfrac{1}{r}(n-\text{rank}[p(A_0)])\)。若记长度为\(ir\)的链条的个数为\(n_i\),还有式(12)方程组,求解便得到每种链条的个数,从而得到有理标准型。放到一般的变换\(A\)和空间\(V\)中,由于\(p(\lambda)\)与其它\(p_j(\lambda)\)互质,利用多项式化一理论可知,\(p^k(A)\)在其它\(W_j\)上是满秩的,故而\(\text{rank}[p^k(A_0)]=\text{rank}[p^k(A)]\)。也就是说,可以直接用\(\text{rank}[p_i^k(A)]\)计算\(W_i\)上每种链条的数量。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\dfrac{1}{r}\text{rank}[p^k(A_0)],\;(k=0,1,\cdots,s-1)\tag{12}\]

2.3 \(\lambda\)矩阵

  标准型是特殊的相似矩阵,它保留了线性变换的核心元素(全系不变量),并以更简单的形式方便了理论推导。但从讨论中看出,具体计算、构造这些全系不变量并不轻松,我们需要一个更好的获取它们的方法。但鉴于这个方法和矩阵相似的跨度实在太大,我一直苦于寻找到一个过渡更顺滑的讲法,但不知从何说起。勉强来说,是要从相似矩阵\(A\sim B\)的特征矩阵矩阵\(\lambda I-A,\lambda I-B\)中寻找共同点,一是因为特征矩阵原生地保留了变换的所有信息,二是这种表达在HC定理中有一个不容忽视的性质。

  首先把元素为\(\lambda\)多项式的矩阵称为\(\lambda\)矩阵,如果允许使用矩阵的数乘运算,每个\(\lambda\)矩阵可以表示为式(13)。式(13)把\(\lambda\)矩阵看成了矩阵系数的\(\lambda\)多项式,而这里的\(\lambda\)仅限定在空间的域上。刚才提到的重要性质是指,如果\(F(\lambda)\)能表示成式(14)左,那么把\(\lambda\)换成矩阵\(A\)时仍然成立。这个性质依赖一个很简单的道理:要想这种替换成立,只需\(\lambda,A\)可交换,故而取\(\lambda=A\)一定成立。当然,\(\lambda\)可以替换为任何与\(A\)可交换的矩阵。

\[F(\lambda)=\lambda^sA_s+\cdots+\lambda A_1+A_0\tag{13}\]

\[F(\lambda)=(\lambda I-A)(\lambda^{s-1}B_{s-1}+\cdots+B_0)\;\Rightarrow\;F(A)=0\tag{14}\]

  然后在\(\lambda\)矩阵上扩展初等变换和相抵的概念,但要限定初等变换也是\(\lambda\)矩阵且可逆,故必须是格式\(P(i,j),P(i,j(f(\lambda))),P(i(k))\)之一。在这样的定义下,显然\(\lambda I-A,\lambda I-B\)是相抵的,反之如果有\(P(\lambda)(\lambda I-A)=(\lambda I-B)Q(\lambda)\),由式(14)也能得到\(A\sim B\)。这就是说矩阵相似与特征矩阵相抵是等价的,而相抵的每一步初等变换都可逆,故可以探索特征矩阵的相抵矩阵而不惧丢失信息。

  初等变换开始出现于行列式当中,那么来考虑\(A(\lambda)\)的所有\(k\)阶子式的行列式,它们是一个多项式集合。初等变换对它们施加的无非是交换、倍数差、纯量乘,由多项式的理论,这些并不改变多项式集的首1最大公因式\(D_k(\lambda)\)。它也被称为\(A(\lambda)\)的\(k\)阶行列式因子,它们是相抵意义下的不变量。为了更快地解析出行列式因子,可以先找到\(d_1(\lambda)=D_1(\lambda)\)放在1行1列,并将1行1列其它元素零化,然后递推得到相抵对角矩阵(15)。其中\(d_i(\lambda)=D_i(\lambda)/D_{i-1}(\lambda)\),这保证了\(d_i(\lambda)\)的唯一性,它称为\(M(\lambda)\)的不变因子,这样的相抵\(\lambda\)矩阵也叫\(M(\lambda)\)的Smith标准型

\[F(\lambda)=P(\lambda)\begin{bmatrix}d_1(\lambda)&&\\&\ddots&\\&&d_n(\lambda)\end{bmatrix}Q(\lambda),\;\;d_i(\lambda)=\dfrac{D_i(\lambda)}{D_{i-1}(\lambda)}\tag{15}\]

  \(\lambda\)矩阵相抵只涉及到多项式的运算,不管在计算还是理论推导上,都有其独有的优势。比如解析过程中发现,Smith标准型并不受数域的影响,所以\(\lambda\)矩阵的相抵关系不因数域而改变,进而证明矩阵相似也不因数域而改变。再比如转置特征矩阵的行列式因子不变,再次证明总有\(A\sim A'\)。另外由于递归中\(d_i(\lambda)\)总是选的公因式,因此还有性质\(d_i(\lambda)\mid d_{i+1}(\lambda)\)(最后几个可能为0)。

  \(d_i(\lambda)\)的不可分解因式\(m^r(\lambda)\)被称为\(\lambda\)矩阵的初等因子,它和不变因子都是\(\lambda\)矩阵的不变量。如果给定非平凡的初等因子或不变因子,以及矩阵的秩(必需),便能很容易地恢复出它的Smith标准型。有趣的是,只要能找到一个对角型的相抵矩阵,对角元的所有不可分解因式便是所有的初等因子,只需简单调整位置便得到了Smith标准型。原因在于,如果只改变(交换)某个因式的位置,行列式因子不变,从而改变后仍与原矩阵相抵。这就说明,分块对角矩阵的初等因子,就是所有分块的初等因子之合。

  现在回到特征矩阵\(\lambda I-A\),它的不变因子(行列式因子、初等因子)也被称为\(A\)的不变因子(行列式因子、初等因子)。由于特征矩阵总是满秩的,加上相抵和相似的等价性,则有不变因子和初等因子都是矩阵相似的全系不变量。容易验证有理块\(C(p^r(\lambda))\)的初等因子只有\(p^r(\lambda)\),从而有理标准型的有理块和初等因子一一对应,这就能更方便地得到有理标准型。特别地,Jordan块\(J_{n}(\lambda_0)\)也与初等因子\((\lambda-\lambda_0)^n\)一一对应,而且在Jordan标准型中容易看出,不变因子\(d_n(\lambda)\)其实就是最小多项式,故而再次证明:最小多项式不因数域而变化。

3. 可交换矩阵

  最后,我们借助一个课题综合运用本章的知识点。记域\(F\)上\(n\)维线性空间\(V\)的线性变换\(A\),现在考虑所有与\(A\)可交换的变换组成的集合\(C[A]=\{X|XA=AX\}\),我们希望能得知\(C[A]\)更多的信息。首先我们知道,\(A\)的多项式\(f(A)\)都与\(A\)可交换,从而多项式域\(F[A]\)是\(C[A]\)的一个下界。假设\(A\)的最小多项式\(m(\lambda)\)是\(s\)阶的,易知\(I,A,\cdots,A^{s-1}\)线性无关且是\(F[A]\)的一组基,即\(F[A]\)是\(s\)维线性空间。

   记\(P_i\)为分解\(V=\oplus U_i\)下在\(U_i\)上的投影,证明\(P_i\in C[A]\)的充要条件是:\(P_i\)为\(A\)-不变子空间。

  以上一直在讨论线性变换的不变子空间分割,这可以将问题分化到维度更小的独立子空间中分析。在可交换问题上,不变子空间分割表现为(分块)对角矩阵,直接利用矩阵乘法的性质能方便问题的讨论。为简单起见,设\(A\)可对角化为\(\begin{bmatrix}A_1&\\&A_2\end{bmatrix}\),同时也将\(X\)按对应子空间分割为\(\begin{bmatrix}X_{11}&X_{12}\\X_{21}&X_{22}\end{bmatrix}\),由\(AX=XA\)得到式(16)。这个等式的对角线就是在不变子空间的讨论,而非对角线又引出了新问题\(A_iX=XA_j\)。

\[\begin{bmatrix}A_1X_{11}&A_1X_{12}\\A_2X_{21}&A_2X_{22}\end{bmatrix}=\begin{bmatrix}X_{11}A_1&X_{12}A_2\\X_{21}A_1&X_{22}A_2\end{bmatrix}\tag{16}\]

  对于特殊的变换,继续推导下去比较容易。比如假设\(A\)可对角化为\(\text{diag}\{\lambda_1I_{n_1},\cdots,\lambda_sI_{n_s}\}\),对比式(16)可知:\(X\)的对角分块为任意矩阵,而其它分块皆为\(0\)。也就是说\(C[A]\)的维度是\(\Sigma n_s^2\),它一般大于\(F[A]\)。更特殊地,如果\(A\)的特征值互不相同,则\(n_i=1\),这时\(C[A]=F[A]\)。

  对于一般的情况,我们先把注意力放在\(A_iX=XA_j\)上,其中\(A_i,A_j\)分别是\(n_i,n_j\)维方阵,\(X\)是\(n_i,n_j\)的矩阵。设\(X\)的秩为\(r\),则它可以表示为\(P\begin{bmatrix}I_r&\\&0\end{bmatrix}Q\)。带入等式并整理对比后可知,\(P^{-1}A_iP\)和\(QA_jQ^{-1}\)左上角\(r\)阶子矩阵相同,从而\(A_i,A_j\)在复数域有\(r\)个(算重数)相同的特征值。反之如果\(A_i,A_j\)有\(r\)个(算重数)相同的特征值,分别取对应\(r\)个线性无关的特征值组成列矩阵\(R_i\)和行矩阵\(R_j'\),验证\(X=R_iR_j'\)可知,它是方程\(A_iX=XA_j\)秩为\(r\)的一个解。综合以上便有结论:方程\(A_iX=XA_j\)有秩为\(r\)的解的充要条件是,\(A_i,A_j\)在复数域有\(r\)个(算重数)相同的特征值。

  以上结论能推推演至\(r\)成立的最大值,特别地,当\(r=0\)时方程只有零解,这时\(A_i,A_j\)在复数域没有相同的特征值。由多项式的结论知,\(A_i,A_j\)的特征多项式互质(在任何数域)。这时既有,\(A_iX=XA_j\)只有零解的充要条件是,\(A_i,A_j\)的特征多项式互质。所以如果按式(5)分割不变子空间,方程总是只有零解,可交换问题就只需在不变子空间\(W_i\)中讨论。但要注意\(W_i\)中可能有多个有理块或Jordan块,此时\(C[A_i]\)还没有一般性的结论,我们只能讨论一些特殊情况。简单起见,以下还是记\(W_i\)为\(V\),记\(A|W_i\)为\(A\)。

  首先假定\(W_i\)中只有一个有理块(或Jordan块),也就是说标准型的每个有理块是互素的,这时就能单独讨论有理块了。记有理块的基是\(\xi,A\xi,\cdots,A^{r-1}\xi\),并设\(B\in C[W_i]\)满足\(B\xi=\sum a_iA^i\xi\)。对任意向量\(\alpha\),将其展开并根据\(A,B\)的可交换性,容易证得\(B\alpha=\sum a_iA^i\alpha\)。从而有\(B=\sum a_iA^i\in F[A]\),再次得到\(C[A]=F[A]\)。

  再看\(W_i\)的最小多项式是\(p(\lambda)\)是\(r\)阶一次的情形。我们把\(V\)看成是域\(F(A)\)上的线性空间,并定义这个空间上的线性变换集\(H[A]=\text{Hom}_{F[A]}(V,V)\),这个神奇的角度可以让\(f(A)\)如纯量一样自由穿梭,从而带来所需的“交换”效果。比如对任何\(B\in H[A]\),总有\(B(A\alpha)=A(B\alpha)\),从而\(B\in C[A]\)或\(H[A]\subseteq C[A]\)。反之对任何\(B\in C[A]\),总有\(B(f(A)\alpha)=f(A)(B\alpha)\),所以\(B\)可以看成域\(F[A]\)上线性变换,即有\(B\in H[A]\)或\(C[A]\subseteq H[A]\)。综合便得到\(C[A]=H[A]\),进一步还可以计算\(H[A]\)的维度:\(H[A]\)在域\(F[A]\)上是\(\dfrac{n^2}{r^2}\)维、在原始域上是\(\dfrac{n^2}{r}\)维的。

  更一般的\(W_i\)就不太好分析\(C[W_i]\)了,但还有一个漂亮的性质值得介绍一下。这里先定义符号\(C^2[A]=C[C[A]]\),它表示与\(C[A]\)所有元素都可交换的变换集,首先因为\(A\in C[A]\),故有\(C^2[A]\subseteq C[A]\)。如果\(C[A]\)没有达到下限\(F[A]\),更多的元素其实会对\(C^2[A]\)造成较大的限制,很有可能会有\(C^2[A]=F[A]\)。即对任意\(B=\in C^2[A]\),我们希望构造出\(B=g(A)\in F[A]\)。为此先将\(V\)分解成有理块(或Jordan块)\(\oplus U_i\),记循环子空间\(U_i\)的生成元为\(\xi_i\),以及最小多项式为\(p_i(\lambda)=p^{s_i}(\lambda)\),其中\(s_i\leqslant s\)。

  因为\(BA=AB\),所以\(U_i\)也是\(B\)-子空间,这里记变换\(B_i=B|U_i\),前面已经证明了存在\(B_i=g_i(A_i)\)。那么希望构造的\(g(A)\)必须满足\(g(A_i)-g_i(A_i)=0\),即\(m_i(\lambda)\mid g(\lambda)-g_i(\lambda)\)。不难看出,如果方程有特解,必然是阶数最高的\(g_i(\lambda)\),记对应的生成元为\(\xi\)。再记\(\alpha=p^{s-s_i}(A)\xi\),要使等式对每个\(i\)成立,等价于要求\(g(A)\alpha=g_i(A)\alpha\)。为了出现\(g_i(A)\),只需把\(\alpha\)看成\(\xi_i\)在某个变换下的象,而这个变换要与\(B\)可交换。对任意\(q(A)\xi_i\),构造变换\(H_i(q(A)\xi_i)=q(A)\alpha\),而在\(U_j\ne U_i\)上是单位映射。易证这个映射是良性定义的(如果\(q_1(A)\xi_i=q_2(A)\xi_i\)则象也相同),且有\(H_i\in C[A]\),则它满足刚才的条件。构造成功后,逆推整个过程便有式(17)成立。

\[C^2[A]=C[C[A]]=F[A]\tag{17}\]

  最后来看可交换变换的一个性质。假设复数域上有\(AB=BA\),先取\(A\)的一个特征子空间\(V(\lambda)\),那么它也是\(B\)的不变子空间。现在在\(V(\lambda)\)中取\(B\)的特征向量\(\alpha_1\),它是\(A,B\)的共同特征向量。易知\(A,B\)在\(\alpha_1\)生成空间下的诱导变换仍然可交换,继续这样的讨论,便能得到一组基\(\{\alpha_i\}\),其中\(A\alpha_i,B\alpha_i\)都可由\(\alpha_1,\cdots,\alpha_{i-1}\)表示。从变换矩阵的角度,就是存在\(P\)使得\(P^{-1}AP\)和\(P^{-1}BP\)都是上三角矩阵,且对角线都是特征值。这个结论能扩展到任意多可交换变换。特别地,如果\(\{A_i\}\)都可以对角化、且互相可交换。先选择基将\(A_1\)对角化。从本段开始的讨论可知,这时其它变换的矩阵都是对角分块矩阵,利用可对角化的条件(最小多项式),可递推地将所有矩阵都对角化。也就是说,存在\(P\)使得\(P^{-1}A_iP\)都是对角矩阵,而刚才的结论就是该结论的扩展。

02-22 20:09