笔记6.线性变换 II——从不变子空间到 Hamilton Cayley 到主分解定理

2026/5/6 线代数学

不变子空间

对于不可对角化的矩阵，我们也希望有一个类似对角化的解剖刀，把矩阵割成互不干扰的片段，好让我们清晰地看到结构。例如特征子空间，彼此互不干扰，又作为子空间封闭。

我们希望从这样的空间抽象出一种相对普适的子空间，也就是所谓不变子空间：

设 $\mathscr{A} \in Hom(V)$ ，$W$是$V$的子空间。若$\forall \alpha \in W, \mathscr{A}\alpha \in W$，则称$W$是$A$-（不变）子空间。例如 $V$ ，${0}$，以及$ImA,KerA$ ，还有广义特征子空间。

性质

回忆起之前，我们证明过两个可对角化的矩阵如果可交换，他们可以同时对角化，这实际上蕴藏了更深一些的东西。

若线性变换 $A,B$可以交换，那么$KerB,ImB$都是$A$ 不变子空间。

设

$$ AB=BA $$

考虑 $B\alpha=0$则$B(A\alpha)=A(B\alpha)=0$，故$A\alpha\in KerB$ 。
考虑 $\alpha=B\beta$，则$A(B\beta)=B(A\beta)\in ImB$ 。

此外，还有一些简单的线性关系。

不变子空间的交、和还是不变子空间

设 $U,W$是$A$ 的不变子空间。

取 $\alpha\in U+W$，那么$\alpha=u+w$，作用一下$A$得到$A\alpha=Au+Aw$，由条件$Au,Aw$还在原空间，故$A\alpha\in U+W$ 。
取 $\alpha\in U \cap W$，那么$\alpha\in U\implies A\alpha\in U$，同理$A\alpha\in W$，所以$A\alpha\in U\cap W$ 。

限制变换

那么，要拆解线性变换，我们就可以考虑线性变换在不变子空间上的作用，我们做所谓的限制变换，也就是把线性变换的定义域限制缩小到不变子空间上。

于是就会得到非常美丽的分块的形式。那么我们可以进一步地考虑这两个矩阵都蕴含了什么。

我们把 $A’$叫做诱导矩阵，它诱导了$V/W$ 上的线性变换。

$$ A':\alpha+W\mapsto A\alpha+W $$

当把 $W$商掉，我们也就只剩下$A’$了，所以对应的映射也就是直接乘$A$ 。

这样也就得到一个局部作用的矩阵，和全局的线性变换有什么联系呢？

限制在不变子空间的限制变换的特征多项式整除原变换的特征多项式

好，那么既然不变子空间这么好，我们怎么找呢？之前提到特征子空间是不变子空间，那我也只能求出特征向量，万一不可对角化要如何找到广义特征子空间的基呢，一个想法是再乘乘 $A-\lambda I$，这样的话对于原来的已经在$Ker(A-\lambda I)^2$中的$\alpha$，我们再乘一个之后也就到了一次因式的核中，因为$(A-\lambda I)((A-\lambda I)\alpha)$由结合律也就是$0$ 。类比这样的想法，我们有所谓循环子空间的思考。

循环子空间

设 $\mathcal{A}$是$K$-线性空间 $V$ 上的线性变换，$0 ≠ α \in V$。考察 $\mathcal{A}$作用下与$α$ 相关的向量。

此时必存在整数 $r ≥ 1$，使得

$$ α, \mathcal{A}α, \dots, \mathcal{A}^{r-1}α $$

线性无关
而

$$ α, \mathcal{A}α, \dots, \mathcal{A}^{r-1}α, \mathcal{A}^rα $$

线性相关。那么注意到这样的形式，如果我们再用 $\mathcal{A}$ 去作用，自然也是类似的形式，对于更高的幂次总可由线性相关而得到一个被低幂次组合表示的结果，所以我们就构造了一个不变子空间。

对上述的线性相关，有 $b_1, \cdots, b_r \in K$，使得

$$ \mathcal{A}^r\alpha + b_1\mathcal{A}^{r-1}\alpha + \cdots + b_r\alpha = 0 . $$

记 $g(x) = x^r + b_1x^{r-1} + \cdots + b_r$，则有

$$ g(\mathcal{A})\alpha = 0 . $$

$W = \langle \alpha, \mathcal{A}\alpha, \cdots, \mathcal{A}^{r-1}\alpha \rangle$是包含$\alpha$的最小$\mathcal{A}$-子空间，称为由 $\alpha$ 生成的 $\mathcal{A}$-循环子空间。

若 $\mathcal{A}^r\alpha = 0$，称 $W$ 为强循环子空间。
从这里，实际上我们可以轻松地证明 Hamilton Cayley 定理，我们先考虑这样一个引理。

限制变换 $\mathcal{A}|W$在$\alpha, \cdots, \mathcal{A}^{r-1}\alpha$下的矩阵$B

$$ $\mathcal{A}|W (\alpha, \mathcal{A}\alpha, \cdots, \mathcal{A}^{r-1}\alpha) = (\mathcal{A}\alpha, \mathcal{A}^2\alpha, \cdots, \mathcal{A}^r\alpha) $$

$$ B = \begin{bmatrix} 0 & 0 & \cdots & 0 & -b_r \\ 1 & 0 & \cdots & 0 & -b_{r-1} \\ 0 & 1 & \cdots & \vdots & \vdots \\ \vdots & \vdots & \ddots & 0 & -b_2 \\ 0 & 0 & \cdots & 1 & -b_1 \end{bmatrix} $$

其中 $B$为 Frobenius 矩阵。$\mathcal{A}|W$ 的特征多项式为：

$$ |x I_r - B| = x^r + b_1x^{r-1} + \cdots + b_r = g(x) $$

神奇的事情发生了，这恰好是零化多项式，而由于零化多项式必定有特征值为根，所以这就是最小多项式。这个系数就是从零化多项式抄来的。

也就是说，我们限制在这个循环子空间的特征多项式能让矩阵零化！

Hamilton Cayley 定理

我们由限制变换的特征多项式整除原来的特征多项式，不妨设 $g(x)$是限制变换的特征多项式，$f(x)$是原来的特征多项式，就有$f(x)=h(x)g(x)$，代入$A$(环同构) 就有$f(A)\alpha=h(A)g(A)\alpha$，让这个$g$对应$\alpha$的循环子空间，那么就得到等式等于$0$ 。

换句话说， $\forall \alpha \in V, f(A)\alpha=0$，这说明说明$Kerf(A)$张成$V$，那也只有可能$f(A)=0$ 。这也就是所谓 Hamilton Cayley 定理，矩阵的特征多项式是矩阵的零化多项式。

可以看到，并不需要什么伴随矩阵，构造一坨莫名其妙的东西然后进行莫名其妙的运算，这是结构倒逼的必然的结果。

得到零化多项式，我们说过，也就得到了全空间的分解，而且这个分解相当细致。

根子空间分解

若 $\mathcal{A}$的特征多项式在域$K$ 上有分解：

$$ f_{\mathbf{A}}(x) = (x - \lambda_1)^{n_1} (x - \lambda_2)^{n_2} \cdots (x - \lambda_s)^{n_s} $$

由 Hamilton Cayley 定理，则

$$ V = V_1 \oplus V_2 \oplus \cdots \oplus V_s $$

其中

$$ V_i = \text{Ker}(\mathcal{A} - \lambda_i I)^{n_i} $$

称为 $\lambda_i$ 的根子空间 (Generalized Eigenspace)。

但是我们可以想想，也许这些根子空间有一定的冗余，我们并不需要这么高的次数就可以让 $A$ 零化。

最小多项式

1. 最小多项式的概念

在线性变换 $\mathcal{A}$的所有零化多项式中，次数最小且首一的多项式称为$\mathcal{A}$的最小多项式，记为$m_{\mathcal{A}}(x)$或$m(x)$。

知道 $m_{\mathcal{A}}(x)$，就掌握了 $\mathcal{A}$ 的所有零化多项式。

2. 最小多项式的性质

命题 1：设 $g(x) \in K[x]$。则

$g(\mathcal{A}) = 0$当且仅当$m_{\mathcal{A}}(x) \mid g(x)$- 证明思路：设$g(x) = q(x)m_{\mathcal{A}}(x) + r(x)$，其中 $\deg r(x) < \deg m_{\mathcal{A}}(x)$。

则 $r(\mathcal{A}) = 0$。由此推出 $r(x) = 0$。
推论：$\mathcal{A}$的最小多项式$m_{\mathcal{A}}(x)$ 唯一；$m_{\mathcal{A}}(x)$整除$\mathcal{A}$的特征多项式$f_{\mathcal{A}}(x)$。

命题 2：若 $\lambda \in K$是$\mathcal{A}$的特征值，则$m_{\mathcal{A}}(\lambda) = 0$。

证明：若 $\lambda \in K$是$\mathcal{A}$的特征值，则存在$\alpha \in V, \alpha \neq 0$，使得 $\mathcal{A}\alpha = \lambda\alpha$。
于是 $0 = m_{\mathcal{A}}(\mathcal{A})\alpha = m_{\mathcal{A}}(\lambda)\alpha \implies m_{\mathcal{A}}(\lambda) = 0$。

3. 最小多项式与特征多项式的关系

小结：若 $\mathbf{A}$的特征多项式在$K$ 上有分解

$$ f_{\mathbf{A}}(x) = (x - \lambda_1)^{n_1} \cdots (x - \lambda_s)^{n_s} $$

则 $\mathbf{A}$ 最小多项式的因式分解为

$$ m_{\mathbf{A}}(x) = (x - \lambda_1)^{r_1} \cdots (x - \lambda_s)^{r_s} $$

其中 $1 \le r_i \le n_i$。

4. 最小多项式判定对角化

判定准则：

设 $V$是$K$-线性空间，$\mathcal{A} \in \text{Hom}(V)$。则 $\mathcal{A}$可对角化，当且仅当$\mathcal{A}$的最小多项式在$K$ 上能完全分解且无重根，即：

$$ m_{\mathcal{A}}(x) = (x - \lambda_1) \cdots (x - \lambda_s) $$

其中 $\lambda_1, \dots, \lambda_s \in K$是$\mathbf{A}$ 互异的特征值。

证明：

$\mathcal{A}$在域$K$ 上可对角化，即：

$$ V = \text{Ker}(\mathcal{A} - \lambda_1 I) \oplus \dots \oplus \text{Ker}(\mathcal{A} - \lambda_s I) $$

（$\lambda_i \in K$是$\mathcal{A}$互异的特征值）$\iff V = \text{Ker}[(\mathcal{A} - \lambda_1 I) \dots (\mathcal{A} - \lambda_s I)]$（互素性）$\iff (\mathcal{A} - \lambda_1 I) \dots (\mathcal{A} - \lambda_s I) = 0$

$\iff (x - \lambda_1) \dots (x - \lambda_s)$是$\mathcal{A}$次数最小的零化多项式，即$m_{\mathcal{A}}(x)$。

5.最小多项式决定 $K[\mathcal{A}]$的结构$\mathcal{A}$的最小多项式决定$K[\mathcal{A}]$ 的结构：

首先，$I, \mathcal{A}, \cdots, \mathcal{A}^{d-1}$构成$K$-线性空间 $K[\mathcal{A}]$的基，这里$d = \deg m_{\mathcal{A}}(x)$。
其次，映射 $\sigma : K[x] \to K[\mathcal{A}]

$$ $g(x) \mapsto g(\mathcal{A}) $$

是环的满同态，$\text{Ker } \sigma$为$m_{\mathcal{A}}(x)$ 的全体倍式。

故剩余类环 $K[x] / (m_{\mathcal{A}}(x)) \cong K[\mathcal{A}]$。

6.最小多项式不随数域扩张改变

首先当然扩张完还是零化多项式。

然后证明扩张不会让零化多项式次数降低。

设 $I, \mathcal{A}, \dots, \mathcal{A}^{d-1}$构成$K[\mathcal{A}]$的基，其中$d = \deg m_A(x)$。

这说明在 $K$视角下，这$d$ 个算子是线性无关的。
线性无关是一个“硬”性质。如果一组向量在小域上无关，它们在大域上依然无关。
因此，在 $F$上，这$d$个算子${I, \mathcal{A}, \dots, \mathcal{A}^{d-1}}$ 也必须是线性无关的。
既然它们无关，那么任何次数小于 $d$的多项式$h(A)$（即这些算子的线性组合）就不可能等于 $0$。

主分解定理

设 $\mathcal{A}$是$K$上的线性变换，其最小多项式$m(x)$在域$K$ 上分解为：

$$ m(x) = (x - \lambda_1)^{r_1} \cdots (x - \lambda_s)^{r_s} $$

则全空间 $V$可以唯一地分解为$\mathcal{A}$ 的根子空间直和：

$$ V = \text{Ker}(\mathcal{A} - \lambda_1 I)^{r_1} \oplus \cdots \oplus \text{Ker}(\mathcal{A} - \lambda_s I)^{r_s} $$

当幂次达到 $r_1$后，再增加幂次（如$r_1+1$），$\text{Ker}$的维数将不再增长。这个稳定的空间就是$\lambda_1$ 的根子空间。

这就是为什么要学多项式环，多项式的因子决定了空间的子块。
同时这正好是投影：

记 $f_i(x) = (x - \lambda_i)^{r_i}, F_i(x) = \prod_{j \neq i} (x - \lambda_j)^{r_j};$则$(f_i(x), F_i(x)) = 1,$故存在$u_i(x), v_i(x) \in \text{K}[x],$

使得

$$ u_i(x)f_i(x) + v_i(x)F_i(x) = 1. $$

令 $h_i(x) = v_i(x)F_i(x) = 1 - u_i(x)f_i(x).$
$V_i = \text{Ker}(\mathcal{A} - \lambda_i I)^{r_i}$，则$\mathcal{P}_i = h_i(\mathcal{A})$是向$V_i$的正则投影，保持$V_i$中的向量点点不动，同时将其余的$V_j \ (j \neq i)$都变为$0.$- 在$V_i$ 上：

任何 $\alpha \in V_i$都满足$(\mathcal{A} - \lambda_i I)^{r_i} \alpha = 0$，即 $f_i(\mathcal{A})\alpha = 0$。

回到定义式：$\mathcal{P}_i = I - u_i(\mathcal{A})f_i(\mathcal{A})$。

作用于 $\alpha$ 时：$\mathcal{P}_i \alpha = I\alpha - u_i(\mathcal{A})(0) = \alpha$。

这解释了为什么它 **“保持 $V_i$ 中的向量点点不动”**。

在 $V_j (j \neq i)$ 上：

任何 $\beta \in V_j$满足$f_j(\mathcal{A})\beta = 0$。由于 $F_i(x)$包含了除$f_i(x)$以外所有的因子，所以$f_j(x)$必然是$F_i(x)$ 的因式。

因此 $F_i(\mathcal{A})\beta = 0$。

由于 $\mathcal{P}_i = v_i(\mathcal{A})F_i(\mathcal{A})$，作用于 $\beta$ 时：$\mathcal{P}_i \beta = v_i(\mathcal{A})(0) = 0$。

这解释了为什么它 “将其余的 $V_j$ 都变为 0”。

这给出的分解对不变子空间也成立：

定理： 设 $V = V_1 \oplus \dots \oplus V_s$是线性变换$\mathcal{A} \in \text{Hom}(V)$ 的根子空间分解。

则任意 $\mathcal{A}$-子空间 $W$ 都有不变子空间分解

$$ W = W_1 \oplus \dots \oplus W_s, \quad W_i = W \cap V_i $$

故 $\mathcal{A}$-子空间 $W$的计算可归结为根子空间$V_i$中$\mathcal{A}$-子空间 $W_i$ 的计算。

证：设 $\mathcal{P}_i$是向$V_i$所做的投影变换，将其余$V_j \ (j \neq i)$都变为$0$，则如前 $\mathcal{P}_i$可写成$\mathcal{A}$的多项式$h_i(\mathcal{A})$。

故 $W$是$\mathcal{P}_i = h_i(\mathcal{A})$ 的不变子空间，$\mathcal{P}_i W \subseteq W$.

对任意 $\alpha \in W$，有

$$ I\alpha = \mathcal{P}_1 \alpha + \mathcal{P}_2 \alpha + \dots + \mathcal{P}_s \alpha, $$

其中 $\mathcal{P}_i \alpha = h_i(\mathcal{A})\alpha \in W \cap V_i$。于是

$$ W \subseteq (W \cap V_1) + \dots + (W \cap V_s). $$

反方向包含关系，直和关系显然。

LOADING