LOADING

加载过慢请开启缓存 浏览器默认开启

笔记13.带度量的线性空间

第十章 带度量的线性空间

来源:线代 A II 讲义,第 203–357 页

整理者注:本章是整门线代课程中理论深度最大、应用最广的一章。它把前面学过的内积、正交、对称变换等概念推广到复数域,并由此引出酉矩阵、Hermite 矩阵、正规矩阵对角化等一系列核心结论。学完这一章,你对”矩阵的本质”会有质的飞跃。


目录

  1. 为什么要推广到复空间?——动机与直觉

  2. 共轭双线性函数与度量矩阵

  3. Hermite 内积与 Hermite 正定矩阵

  4. Cholesky 分解:正定矩阵的”开方”

  5. 酉空间:复版欧氏空间

  6. 酉矩阵与酉群

  7. Fourier 矩阵与快速傅里叶变换 FFT

  8. 酉变换与 Hermite 变换

  9. 共轭变换:伴随算子的复数版

  10. 正规变换与正规矩阵的谱分解 ★核心定理★

  11. 正交空间与辛空间:更一般的度量结构

  12. 正交投影:从理论到计算

  13. Perron-Frobenius 定理:非负矩阵的灵魂

  14. 矩阵范数与特征值估计

  15. Penrose 广义逆与 SVD

  16. Cauchy Interlacing 与 Courant-Fischer Min-Max 定理 ★研究级工具★

  17. 三维旋转的矩阵表示:Rodrigues 公式

  18. 综合习题选编


1. 为什么要推广到复空间?——动机与直觉

1.1 一个看似简单的问题

同学们,在上一章我们学了欧氏空间——配上内积的实线性空间。内积给了我们长度、角度、正交这些几何概念,一切都很美好。

但现在我们进入复数域了。自然的问题是:在复线性空间上,如何定义向量的长度?

最直接的想法是:照搬实空间的公式呗。对 $\mathbf{z} = (z_1, \dots, z_n)^T \in \mathbb{C}^n$,定义 $||\mathbf{z}||^2 = z_1^2 + z_2^2 + \cdots + z_n^2$。

但这立刻出问题了。 考虑向量 $\begin{bmatrix} 1 \ i \end{bmatrix}$,它的”长度平方”是 $1^2 + i^2 = 1 - 1 = 0$。一个非零向量的长度是 0?这完全违背了长度的基本直觉。

1.2 正确的方向

问题出在哪?出在我们忘了复数的”模”是怎么定义的。一个复数 $z$的模平方是$|z|^2 = z\bar{z}$,不是 $z^2$。

所以复向量的长度应该定义为:

$$ ||\mathbf{z}||^2 = z_1\bar{z}_1 + z_2\bar{z}_2 + \cdots + z_n\bar{z}_n = \mathbf{z}^T\bar{\mathbf{z}} $$

老师点评:这一步看似 trivial,但它是整章的起点。从这里出发,我们会发现复空间上的”内积”不能是双线性的,而必须是共轭双线性的(sesquilinear)。这是复分析与量子力学中内积的标准形式,理解这一点对你后续学量子力学非常有帮助——量子态的内积 $\langle\psi|\phi\rangle$ 就是共轭双线性的。


2. 共轭双线性函数与度量矩阵

2.1 定义

定义(共轭双线性函数):在复线性空间 $V$上,二元函数$f(\alpha, \beta)$ 称为共轭双线性函数,若满足:

$$ \begin{aligned}

f(k\alpha + l\beta, \gamma) &= k f(\alpha, \gamma) + l f(\beta, \gamma) &\quad &\text{(对第一个变量线性)} \

f(\gamma, k\alpha + l\beta) &= \bar{k} f(\gamma, \alpha) + \bar{l} f(\gamma, \beta) &\quad &\text{(对第二个变量共轭线性)}

\end{aligned}
$$

对任意 $k, l \in \mathbb{C}$。

注意:这里有一个约定问题。数学界和物理界对”哪个变量共轭线性”有相反的约定。数学通常让第二个变量共轭线性(如上),物理(Dirac 记号)通常让第一个变量共轭线性。两种约定本质等价,但混用会出符号错误,务必保持一致。

2.2 度量矩阵:坐标化

和上一章对称双线性函数完全类似,选定基之后,共轭双线性函数也可以用矩阵来表示。

设 $\alpha, \beta$在基$\alpha_1, \dots, \alpha_n$下的坐标为$X = (x_1, \dots, x_n)^T$,$Y = (y_1, \dots, y_n)^T$。利用共轭双线性逐次展开:

$$ \begin{aligned}

f(\alpha, \beta) &= f\left(\sum_i x_i \alpha_i,\ \sum_j y_j \alpha_j\right) \

&= \sum_{i=1}^n \sum_{j=1}^n x_i \bar{y}_j \cdot f(\alpha_i, \alpha_j) \

&= X^T A \bar{Y}

\end{aligned}
$$

其中 $A = [f(\alpha_i, \alpha_j)]_{n \times n}$称为$f$ 在该基下的度量矩阵

老师讲解:注意这里的公式是 $X^T A \bar{Y}$,不是上一章的 $X^T A Y$。差别就在 $\bar{Y}$ 上——因为第二个变量是共轭线性的,所以坐标要取共轭。这个细节在后续推导中反复出现,一定要养成条件反射。

结论:固定基底后,共轭双线性函数与复矩阵(度量矩阵)一一对应。

2.3 基变换公式

定理:若 $f$在基底$\alpha_1, \dots, \alpha_n$下的度量矩阵为$A$,新基底 $(\beta_1, \dots, \beta_n) = (\alpha_1, \dots, \alpha_n)P$,则 $f$ 在新基下的度量矩阵为:

$$ P^T A \bar{P} $$

证明:设向量在 ${\beta}$基下的坐标为$X_i, Y_i$,则在 ${\alpha}$基下的坐标为$PX_i, PY_i$。于是:

$$ f(\cdot, \cdot) = (PX_i)^T A \overline{(PY_i)} = X_i^T (P^T A \bar{P}) \bar{Y}_i $$

故新度量矩阵为 $P^T A \bar{P}$。 $\square$> 对比:上一章实对称双线性函数的基变换公式是$P^T A P$。这里变成了 $P^T A \bar{P}$,多了一个共轭。如果 $P$ 恰好是实矩阵,两个公式就一样了。


3. Hermite 内积与 Hermite 正定矩阵

3.1 从共轭双线性到内积

并不是所有共轭双线性函数都能当”内积”用。我们需要两个额外条件:

定义(Hermite 内积):若共轭双线性函数 $(\cdot, \cdot)$ 满足:

  1. 共轭对称:$(\alpha, \beta) = \overline{(\beta, \alpha)}$,$\forall \alpha, \beta$

  2. 正定:$(\alpha, \alpha) > 0$,$\forall \alpha \neq 0$则称$(\cdot, \cdot)$ 为复(Hermite)内积

老师点评:条件 1 看起来有点奇怪——为什么不要求 $(\alpha, \beta) = (\beta, \alpha)$?因为如果是共轭双线性的,强求对称性会导致 $(\alpha, \alpha)$未必是实数,那就没法定义长度了。共轭对称性恰好保证了$(\alpha, \alpha) = \overline{(\alpha, \alpha)}$,即 $(\alpha, \alpha)$ 是实数,再配合正定性,$||\alpha|| = \sqrt{(\alpha, \alpha)}$ 就有意义了。

3.2 Hermite 矩阵

定义:复矩阵 $A$称为 Hermite 矩阵,若$A^H := \bar{A}^T = A$(即 $a_{ij} = \bar{a}_{ji}$)。

若 Hermite 矩阵 $A$还满足$\bar{X}^T A X > 0$对所有$X \neq 0$,则称 $A$ 为Hermite 正定矩阵

老师讲解:Hermite 矩阵就是实对称矩阵在复数域的自然推广。实对称矩阵满足 $A^T = A$,Hermite 矩阵满足 $A^H = A$。当你把”转置”换成”共轭转置”,实对称理论中绝大多数结论都可以原封不动地推广过来。这是本章最重要的思维模式

3.3 Hermite 记号

引入记号 $A^H := \bar{A}^T$(共轭转置,也叫 Hermite 转置)。基本性质:

  • $(A^H)^H = A$-$(AB)^H = B^H A^H$(注意顺序反转,和$(AB)^T = B^T A^T$ 同理)

3.4 内积 $\iff$ 正定矩阵

命题:共轭双线性函数 $f$是复内积$\iff$ $f$在任意基下的度量矩阵$A$ 是 Hermite 正定矩阵。

证明:设 $\alpha, \beta$的坐标为$X, Y$。

共轭对称 $\iff$ Hermite

$$ (\alpha, \beta) = \overline{(\beta, \alpha)} \iff X^T A \bar{Y} = \overline{Y^T A \bar{X}} = \bar{Y}^T \bar{A} X = X^T \bar{A}^T \bar{Y} \iff A = \bar{A}^T = A^H $$

正定性:$(\alpha, \alpha) > 0 \iff \bar{X}^T A X > 0$对所有$X \neq 0$。 $\square$

老师点评:这个等价性极其重要。它意味着:研究复内积的问题,可以完全转化为研究 Hermite 正定矩阵的问题。矩阵工具有什么,我们就用什么。这是”坐标化”思维的威力。


4. Cholesky 分解:正定矩阵的”开方”

4.1 Hermite 正定矩阵的等价刻画

定理:设 $A$ 是 Hermite 矩阵,则以下等价:

  1. $A$ 复正定($\bar{X}^T A X > 0$对所有$X \neq 0$)

  2. $A$的特征值都$> 0$3.$A = P^T \bar{P}$,其中 $P$ 是上三角可逆复矩阵

  3. $A$的顺序主子式都$> 0$> 老师讲解:这四个条件在实对称正定矩阵中我们已经见过。复的情形证明思路完全一样,只是把转置$T$换成共轭转置$H$。条件 (2) 让你用特征值判断正定性;条件 (3) 是 Cholesky 分解,有计算意义;条件 (4) 是 Sylvester 准则,只检查主子式就行,不用求特征值。

4.2 Cholesky 分解

定理(Cholesky 分解)

$$ A \text{ 是复正定矩阵} \iff A = P^T \bar{P} $$

其中 $P$是对角元都$> 0$ 的上三角矩阵。

4.3 构造性证明

动机:我们要把 $A$合同变换为单位矩阵。方法是共轭成对的行列变换——即同时做第$i$行和第$i$列的相同初等变换。这相当于右乘上三角矩阵$P$再左乘$P^T$。

以 $4 \times 4$ 为例,$A$的顺序主子式都$> 0$:

  • $|A_1| = a_{11} > 0$-$b_{22} = |A_2|/|A_1| > 0$-$c_{33} = |A_3|/|A_2| > 0$-$d_{44} = |A_4|/|A_3| > 0$

通过成对高斯消去,$A$逐步化为对角矩阵$\mathrm{diag}(a_{11}, b_{22}, c_{33}, d_{44})$,再对每个对角元开方归一化,最终得到 $P^T \bar{P} = A$。

老师点评:Cholesky 分解在数值计算中极其重要。求解正定线性方程组 $Ax = b$时,用 Cholesky 分解$A = P^T \bar{P}$,然后先后解 $\bar{P}y = b$和$P^T x = y$(两次回代),比 Gauss 消元快一倍且数值稳定性更好。金融工程中的 Monte Carlo 模拟、机器学习中的高斯过程,都大量用到 Cholesky 分解。


5. 酉空间:复版欧氏空间

5.1 定义

定义:配有 Hermite 内积的复线性空间称为酉空间(Unitary space)。

在酉空间中:

  • 长度:$||\alpha|| := \sqrt{(\alpha, \alpha)}$

  • 正交:$\alpha \perp \beta \iff (\alpha, \beta) = 0$

  • 距离:$d(\alpha, \beta) := ||\alpha - \beta||$

5.2 Cauchy-Schwarz 不等式

这是整个度量理论的基石。

定理:$||\alpha|| \cdot ||\beta|| \geq |(\alpha, \beta)|$,等号成立 $\iff \alpha, \beta$ 共线。

证明:设 $\beta \neq 0$。由正定性,对任意复数 $t$:

$$ (\alpha - t\beta, \alpha - t\beta) \geq 0 $$

展开(注意共轭线性):

$$ (\alpha, \alpha) - t(\alpha, \beta) - \bar{t}(\beta, \alpha) + t\bar{t}(\beta, \beta) \geq 0 $$

关键步骤:取 $t = \dfrac{(\alpha, \beta)}{(\beta, \beta)}$。为什么取这个?因为这是让上式取最小值的 $t$(类比二次函数顶点)。代入得:

$$ (\alpha, \alpha)(\beta, \beta) - |(\alpha, \beta)|^2 \geq 0 $$

即 $||\alpha|| \cdot ||\beta|| \geq |(\alpha, \beta)|$。 $\square$> 老师讲解:注意和实空间的区别——右边是$|(\alpha, \beta)|$(绝对值),不是 $|(\alpha, \beta)|$的绝对值,因为$(\alpha, \beta)$本身可能是复数。等号成立当且仅当$\alpha = t\beta$,即共线。

5.3 三角不等式

定理:$||\alpha + \beta|| \leq ||\alpha|| + ||\beta||$。

证明

$$ \begin{aligned}

||\alpha + \beta||^2 &= (\alpha+\beta, \alpha+\beta) \

&= (\alpha,\alpha) + (\alpha,\beta) + (\beta,\alpha) + (\beta,\beta) \

&= ||\alpha||^2 + 2\mathrm{Re}(\alpha,\beta) + ||\beta||^2 \

&\leq ||\alpha||^2 + 2|(\alpha,\beta)| + ||\beta||^2 \

&\leq ||\alpha||^2 + 2||\alpha||\cdot||\beta|| + ||\beta||^2 \quad \text{(C-S 不等式)} \

&= (||\alpha|| + ||\beta||)^2

\end{aligned}
$$

开方即得。 $\square$> 老师点评:注意第三行到第四行用到了$\mathrm{Re}(z) \leq |z|$。这是复数情形的一个微妙之处——实空间里 $(\alpha,\beta) + (\beta,\alpha) = 2(\alpha,\beta)$,但复空间里 $(\alpha,\beta) + (\beta,\alpha) = (\alpha,\beta) + \overline{(\alpha,\beta)} = 2\mathrm{Re}(\alpha,\beta)$。

5.4 夹角与标准正交基

定义 $\alpha, \beta$的夹角$\theta$满足$\cos\theta = \dfrac{|(\alpha, \beta)|}{||\alpha|| \cdot ||\beta||}$。

注意:在复空间中,$\theta$实际上是实平面$\langle \alpha, i\alpha \rangle$与$\langle \beta, i\beta \rangle$ 之间的最小夹角。这和实空间的直觉略有不同。

标准正交基:两两正交的单位向量构成的基。$\beta_1, \dots, \beta_n$是标准正交基$\iff$内积在${\beta_i}$下的度量矩阵为$I$。

5.5 标准酉空间 $\mathbb{C}^n$ $\mathbb{C}^n$配标准内积$(X, Y) = \bar{X}^T Y = \sum x_i \bar{y}_i$,构成 $n$维标准酉空间。$\beta_1, \dots, \beta_n$是标准正交基$\iff$矩阵$U = [\beta_1 \cdots \beta_n]$满足$U^H U = I$。


6. 酉矩阵与酉群

6.1 定义与等价条件

定义:复方阵 $U$ 是酉矩阵,若满足以下等价条件之一:

  1. $U^H U = I$2.$U U^H = I$3.$U^{-1} = U^H$4.$U$的列向量构成$\mathbb{C}^n$ 的标准正交基

老师讲解:酉矩阵就是”复版正交矩阵”。正交矩阵 $Q$满足$Q^T Q = I$,酉矩阵 $U$满足$U^H U = I$。把 $T$换成$H$,一切照旧。酉矩阵的列是标准正交的,行也是标准正交的(因为 $U U^H = I$ 也成立)。

6.2 特征值性质 ★

定理

  • 酉矩阵的特征值 $\lambda$满足$|\lambda| = 1$(全在单位圆上)

  • Hermite 矩阵的特征值都是实数

  • 反 Hermite 矩阵($A^H = -A$)的特征值都是纯虚数或 0

证明(酉矩阵):设 $A\alpha = \lambda\alpha$,$\alpha \neq 0$。取共轭转置:$\bar{\alpha}^T A^H = \bar{\lambda}\bar{\alpha}^T$。

$$ \bar{\alpha}^T \alpha = \bar{\alpha}^T A^H A \alpha = \bar{\lambda}\lambda \bar{\alpha}^T \alpha = |\lambda|^2 \bar{\alpha}^T \alpha $$

由 $\bar{\alpha}^T \alpha = ||\alpha||^2 \neq 0$,得 $|\lambda| = 1$。 $\square$> 老师点评:这个证明非常漂亮——用$A^H A = I$直接把$\lambda$和$\bar{\lambda}$凑在一起得到$|\lambda|^2$。Hermite 矩阵的证明类似:$A\alpha = \lambda\alpha \Rightarrow \bar{\alpha}^T A \alpha = \lambda \bar{\alpha}^T \alpha$,左边 $= \overline{\bar{\alpha}^T A \alpha} = \bar{\lambda} \bar{\alpha}^T \alpha$(因为 $A = A^H$),所以 $\lambda = \bar{\lambda}$,即 $\lambda \in \mathbb{R}$。

6.3 酉群

$$ U(n) = \{U \in M_n(\mathbb{C}) \mid U^H U = I\}, \quad SU(n) = \{U \in U(n) \mid \det U = 1\} $$

$U(n)$是$n$ 级酉群,$SU(n)$ 是特殊酉群。

老师点评:酉群在物理学中无处不在。$SU(2)$ 描述自旋,$SU(3)$ 是量子色动力学的规范群,$U(1)$是量子电动力学的规范群。标准模型的规范群是$SU(3) \times SU(2) \times U(1)$。学好酉矩阵,对理解现代物理有直接帮助。


7. Fourier 矩阵与快速傅里叶变换 FFT

7.1 Fourier 矩阵

$$ F_n = \frac{1}{\sqrt{n}} \begin{bmatrix}

1 & 1 & 1 & \cdots & 1 \

1 & \zeta & \zeta^2 & \cdots & \zeta^{n-1} \

1 & \zeta^2 & \zeta^4 & \cdots & \zeta^{2(n-1)} \

\vdots & \vdots & \vdots & \ddots & \vdots \

1 & \zeta^{n-1} & \zeta^{2(n-1)} & \cdots & \zeta^{(n-1)^2}

\end{bmatrix}, \quad \zeta = e^{2\pi i / n}
$$

$F_n$ 是酉矩阵。$F_n$的列向量$\alpha_0, \dots, \alpha_{n-1}$构成$\mathbb{C}^n$ 的标准正交基。

傅立叶变换:$X = F_n Y$把系数$Y = (y_0, \dots, y_{n-1})^T$(傅立叶系数)变成信号 $X$。逆变换:$Y = F_n^H X$。

老师讲解:FFT 可能是本章工程应用价值最高的内容。没有 FFT,就没有现代数字信号处理、没有 MP3 压缩、没有 WiFi 通信(OFDM)、没有 MRI 成像。FFT 把 DFT 的复杂度从 $O(n^2)$降到$O(n \log n)$,这是计算机科学的里程碑。

7.2 FFT 的核心思想:分治

关键观察:$F_{2n}$的元素有周期性。记$\varepsilon = e^{2\pi i / 2n}$,则 $\varepsilon^2 = e^{2\pi i / n} = \zeta_n$,且 $\varepsilon^{k+n} = -\varepsilon^k$。

利用这个性质,把 $F_{2n}$ 的奇数列移到前面、偶数列移到后面,得到分块分解

$$ F_{2n} = \begin{bmatrix} I_n & D_n \\ I_n & -D_n \end{bmatrix} \begin{bmatrix} F_n & 0 \\ 0 & F_n \end{bmatrix} \Gamma_{2n} $$

其中 $D_n = \mathrm{diag}(1, \varepsilon, \varepsilon^2, \dots, \varepsilon^{n-1})$,$\Gamma_{2n}$ 是奇偶列置换。

于是计算 $F_{2n} X$ 变成:

$$ F_{2n} X = \begin{bmatrix} F_n X_1 + D_n F_n X_2 \\ F_n X_1 - D_n F_n X_2 \end{bmatrix} $$

其中 $X_1$是$X$ 的奇数位置元素,$X_2$ 是偶数位置元素。

老师讲解:这就是”蝶形运算”(butterfly operation)。一个 $2n$点的 DFT 被分解为两个$n$点的 DFT 加上$n$ 次复数乘法。递归下去:

$$ N_{2n} = 2N_n + n $$

展开($n = 2^k$):

$$ N_{2^k} = \frac{n}{2} \log_2 n = \frac{n}{2} k $$

7.3 复杂度对比

| $n$| 直接$n^2$| FFT$\frac{n}{2}\log_2 n$ | 加速比 |

|—|—|—|—|

| $2^{12} = 4096$ | 16384 | 192 | 85x |

| $2^{20} \approx 10^6$|$10^{12}$| 5120 |$2 \times 10^8$ x |

| $2^{40} \approx 10^{12}$|$10^{24}$ | 5242880 | 天文数字 |

老师点评:当 $n = 2^{40}$时,直接计算需要$10^{24}$次乘法——即使每秒算$10^{18}$ 次(exascale 超算),也要算 30 年。而 FFT 只需要 500 万次,几毫秒就完了。这就是算法的力量。


8. 酉变换与 Hermite 变换

8.1 酉变换

定义:酉空间上保持内积的线性变换 $A$:

$$ (A\alpha, A\beta) = (\alpha, \beta), \quad \forall \alpha, \beta $$

定理:以下等价:

  • $A$ 是酉变换

  • $A$ 把标准正交基映为标准正交基

  • $A$ 在标准正交基下的矩阵是酉矩阵

证明:设 $\beta_1, \dots, \beta_n$ 是标准正交基。$(A\beta_1, \dots, A\beta_n) = (\beta_1, \dots, \beta_n)A$。左边是标准正交基 $\iff$ $A$是酉矩阵。$\square$

老师讲解:酉变换就是”复版正交变换”。正交变换保持实内积,酉变换保持复内积。几何上,酉变换是复空间的”刚性运动”——不改变长度和夹角。

8.2 Hermite 变换

定义:若 $(A\alpha, \beta) = (\alpha, A\beta)$对所有$\alpha, \beta$,则 $A$ 是 Hermite(自伴随)变换

定理:$A$是 Hermite 变换$\iff$ $A$ 在标准正交基下的矩阵是 Hermite 矩阵。

定理:Hermite 矩阵的特征值都是实数。

老师点评:Hermite 变换在量子力学中对应可观测量(observable)。量子力学的公理之一就是:每一个物理可观测量对应一个 Hermite 算子,测量结果就是该算子的特征值(必须是实数,所以要求 Hermite)。这就是为什么 Hermite 矩阵的特征值都是实数这条定理如此重要——它保证了量子力学测量的结果确实是实数。


9. 共轭变换:伴随算子的复数版

9.1 定义

定义:设 $A$是酉空间上的线性变换。若存在$A^*$ 使得:

$$ (A\alpha, \beta) = (\alpha, A^*\beta), \quad \forall \alpha, \beta $$

则称 $A^$是$A$ 的*共轭变换(adjoint operator)。

例子

  • 酉变换 $U$的共轭变换是$U^{-1}$(因为 $(U\alpha, \beta) = (\alpha, U^{-1}\beta)$)

  • Hermite 变换 $A$的共轭变换是$A$ 自身

9.2 存在唯一性

定理:有限维酉空间上,任何线性变换 $A$都有唯一的共轭变换$A^$。在标准正交基下,若 $A$的矩阵为$A$,则 $A^$的矩阵为$A^H$。

证明:设 $A, A^*$在标准正交基下的矩阵为$A, B$,$\alpha, \beta$的坐标为$X, Y$:

$$ (A\alpha, \beta) = \bar{X}^T A^H Y, \quad (\alpha, A^*\beta) = \bar{X}^T B Y $$

故 $A^*$是共轭变换$\iff \bar{X}^T A^H Y = \bar{X}^T B Y$对所有$X, Y$ $\iff B = A^H$。 $\square$

老师讲解:这个证明的核心思想是”矩阵由它作用在所有向量上的效果唯一确定”。$\bar{X}^T M Y = 0$对所有$X, Y$ $\iff M = 0$。这是线性代数中反复使用的技巧。


10. 正规变换与正规矩阵的谱分解 ★核心定理★

10.1 什么是正规变换?

定义:若 $A A^* = A^* A$,则 $A$ 是正规变换

对应地,$A A^H = A^H A$ 的矩阵称为正规矩阵

老师讲解:为什么叫”正规”(normal)?因为它是”最一般的好行为矩阵”。酉矩阵、Hermite 矩阵、反 Hermite 矩阵、甚至实对称矩阵,全都是正规矩阵的特例。正规矩阵是这些”好矩阵”的统一推广。

验证:

  • 酉矩阵 $U$:$U U^H = U U^{-1} = I = U^{-1} U = U^H U$ ✓

  • Hermite 矩阵 $A$:$A A^H = A^2 = A^H A$ ✓

  • 反 Hermite 矩阵 $A$:$A A^H = A(-A) = -A^2 = (-A)A = A^H A$ ✓

10.2 ★主定理★:正规矩阵的酉对角化

定理:$A$是正规矩阵$\iff$存在酉矩阵$U$和复对角矩阵$D$,使得:

$$ A = U D U^H = U D U^{-1} $$

老师点评:这是本章最重要的定理,没有之一。它告诉我们:任何正规矩阵都可以用酉相似变换对角化。对比实对称矩阵的正交对角化 $A = Q D Q^T$,这里只是把 $Q$换成$U$,$Q^T$换成$U^H$。但这个推广的威力巨大——它涵盖了酉矩阵、Hermite 矩阵、以及所有它们的组合。

10.3 完整证明

证明(数学归纳法):

基础:$1 \times 1$ 矩阵显然成立。

归纳步骤:假设对 $< n$级正规矩阵成立。设$A$是$n$ 级正规矩阵。

第一步:$\mathbb{C}$上任何矩阵都有特征值(代数闭域),设$\lambda_1$是$A$ 的一个特征值,$\alpha_1$ 是对应的单位特征向量:$A\alpha_1 = \lambda_1 \alpha_1$,$||\alpha_1|| = 1$。

第二步:将 $\alpha_1$扩充为$\mathbb{C}^n$的一组基,用 Schmidt 正交化+单位化,得到标准正交基$\alpha_1, \dots, \alpha_n$。排成酉矩阵 $U_1 = [\alpha_1 \ \alpha_2 \ \cdots \ \alpha_n]$。

第三步:计算 $U_1^H A U_1$。由于 $A\alpha_1 = \lambda_1 \alpha_1$,第一列是 $(\lambda_1, 0, \dots, 0)^T$:

$$ U_1^H A U_1 = \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} $$

其中 $C$是$1 \times (n-1)$ 行向量,$B$是$(n-1) \times (n-1)$ 矩阵。

第四步(关键):取共轭转置:

$$ U_1^H A^H U_1 = \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} $$

由 $A$ 正规($A A^H = A^H A$),两边同时做 $U_1^H (\cdot) U_1$ 相似变换,正规性保持:

$$ \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} = \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} $$

比较左上角元素:

$$ \lambda_1 \bar{\lambda}_1 + C \bar{C}^T = \lambda_1 \bar{\lambda}_1 \Rightarrow C \bar{C}^T = 0 $$

而 $C \bar{C}^T = |c_2|^2 + \cdots + |c_n|^2 = 0 \Rightarrow C = 0$。

老师讲解:这是证明的灵魂步骤。为什么 $C$必须是 0?因为$A$的正规性强制了这一点。如果$A$ 不是正规的,$C$ 一般不为 0,我们就得不到分块对角形式,归纳法就走不下去了。这就是为什么只有正规矩阵才能酉对角化。

第五步:现在 $U_1^H A U_1 = \mathrm{diag}(\lambda_1, B)$,且 $B$也正规(由$A A^H = A^H A$推出$B B^H = B^H B$)。对 $B$ 应用归纳假设,$B = U_1’ D_1 (U_1’)^H$。

第六步:令 $U = U_1 \cdot \mathrm{diag}(1, U_1’)$,则 $U$是酉矩阵(酉矩阵的块对角仍是酉的),且$A = U D U^H$。 $\square$

10.4 推论

推论 1:$A$正规$\iff A = U D U^H$($U$ 酉,$D$ 复对角)

推论 2:$A$酉$\iff A = U D U^H$,且 $D$ 的对角元模为 1

推论 3:$A$Hermite$\iff A = U D U^H$,且 $D$ 是对角矩阵

推论 4:$A$反 Hermite$\iff A = U D U^H$,且 $D$ 的对角元是纯虚数

老师讲解:这四个推论是”一把钥匙开四把锁”。同一个谱分解框架,通过限制对角元的性质,就区分了四类重要矩阵。考试和科研中,遇到这四类矩阵中的任何一类,第一反应应该是”它可以酉对角化”。

10.5 不变子空间的正交补

推论:设 $A$是正规变换。若$W$是$A$-不变子空间,则 $W^\perp$也是$A$-不变子空间。

证明:取标准正交基使 $W = \langle \beta_1, \dots, \beta_k \rangle$。$A$的矩阵为$\begin{bmatrix} B & C \ 0 & D \end{bmatrix}$($W$不变$\Rightarrow$左下为 0)。$A^*$的矩阵为$\begin{bmatrix} B^H & 0 \ C^H & D^H \end{bmatrix}$。

由 $A A^H = A^H A$,比较得 $C C^H = 0$。取迹:$\mathrm{tr}(C C^H) = \sum |c_{ij}|^2 = 0 \Rightarrow C = 0$。

故 $A$ 的矩阵是分块对角的,$W^\perp$也是不变子空间。$\square$

老师点评:这个结论在实对称矩阵中也有对应(对称变换的不变子空间的正交补仍是不变子空间),但在一般矩阵中不成立。正规性是保证这一点的最弱条件。这个性质在同时对角化理论和谱定理的证明中反复使用。


11. 正交空间与辛空间:更一般的度量结构

11.1 定义

设 $K$是特征$\neq 2$ 的域,$V$是$K$-线性空间,配非退化双线性函数 $f$。

  • $f$对称$\Rightarrow$ $(V, f)$ 是正交空间

  • $f$ 反对称($f(\alpha, \alpha) = 0$)$\Rightarrow$ $(V, f)$ 是辛空间

老师讲解:到这里,我们跳出了”内积必须正定”的限制。正交空间和辛空间中的”内积”不一定正定,甚至可能不定(有正有负)。这引出了更丰富的几何结构。

11.2 Minkowski 空间

在 $\mathbb{R}^4$ 中定义 Minkowski 内积

$$ (\alpha, \beta) = x_1 y_1 + x_2 y_2 + x_3 y_3 - x_4 y_4 $$

这就是狭义相对论中的时空内积!注意符号是 $(+,+,+,-)$,不是 $(+,+,+,+)$。时间维度的符号是负的。

保持该内积的线性变换称为洛伦兹变换:$(A\alpha, A\beta) = (\alpha, \beta)$。

老师点评:Minkowski 空间是正交空间但不是欧氏空间(内积不定)。它的等距群(洛伦兹群)是 $O(3,1)$,不是 $O(4)$。这是物理学中正交空间最经典的例子。

11.3 Witt 消去定理

定理:设 $V$ 是有限维正交(辛)空间,$V’, V’’$是同构子空间(存在保内积的同构$\sigma: V’ \to V’’$),则 $\sigma$可扩充为$V$ 上的正交变换。

老师讲解:Witt 定理说的是:子空间上的等距映射可以”扩展”到整个空间。这在分类理论中是基础工具——它保证了正交(辛)空间的分类只依赖于一些不变量(如符号差),而不依赖于具体的基的选取。


12. 正交投影:从理论到计算

12.1 已知标准正交基的情形

设 $\alpha_1, \dots, \alpha_r$是子空间$W \subset \mathbb{R}^n$ 的标准正交基。$R^n$向$W$的正交投影$P$ 的矩阵为:

$$ P = \sum_{i=1}^r \alpha_i \alpha_i^T = A A^T $$

其中 $A = [\alpha_1 \ \cdots \ \alpha_r]$。

推导:对任意 $\alpha_j$,$P\alpha_j = \sum_i (\alpha_i, \alpha_j) \alpha_i = \sum_i \alpha_i (\alpha_i^T \alpha_j) = (\sum_i \alpha_i \alpha_i^T) \alpha_j$。由于 $P$在基向量上的效果确定了$P$ 的矩阵,得证。

12.2 已知一般基的情形

设 $\alpha_1, \dots, \alpha_r$是$W$ 的一般基(不必正交),$A = [\alpha_1 \ \cdots \ \alpha_r]$ 列满秩。则:

$$ P = A(A^T A)^{-1} A^T $$

老师讲解:这个公式是最小二乘法的核心。在统计学和机器学习中,线性回归 $\hat{y} = X\beta$的正规方程解$\hat{\beta} = (X^T X)^{-1} X^T y$,本质上就是投影公式。$X(X^T X)^{-1} X^T$就是设计矩阵$X$ 的列空间上的投影矩阵(hat matrix)。

12.3 正交投影的刻画

  1. $A$列满秩$\Rightarrow X \mapsto A(A^T A)^{-1} A^T X$是到$\mathrm{Im}, A$ 的正交投影

  2. $A^T A = I \Rightarrow X \mapsto A A^T X$是到$\mathrm{Im}, A$ 的正交投影

  3. $A^2 = A \Rightarrow V = \mathrm{Im}, A \oplus \mathrm{Ker}, A$,$X \mapsto AX$是沿$\mathrm{Ker}, A$向$\mathrm{Im}, A$ 的投影

  4. $A$实对称且$A^2 = A \Rightarrow X \mapsto AX$是到$\mathrm{Im}, A$ 的正交投影

老师点评:条件 4 是关键——幂等($A^2 = A$)保证是投影,对称($A^T = A$)保证是正交投影。两者缺一不可。

12.4 求正交补的基

$W^\perp = (\mathrm{Im}, A)^\perp = \mathrm{Ker}(A^T)$。所以求 $W^\perp$的基等价于解$A^T X = 0$。

:$W = \langle (1,1,2,1)^T, (1,0,0,-2)^T \rangle \subset \mathbb{R}^4$。解 $\begin{bmatrix} 1 & 1 & 2 & 1 \ 1 & 0 & 0 & -2 \end{bmatrix} X = 0$,得基础解系即为 $W^\perp$ 的基。


13. Perron-Frobenius 定理:非负矩阵的灵魂

13.1 背景

元素全为正数的矩阵叫正矩阵,元素 $\geq 0$ 的叫非负矩阵。这类矩阵在马尔可夫链、PageRank 算法、人口模型、经济学投入产出分析中无处不在。

13.2 Perron-Frobenius 定理(正矩阵版)

对于正方阵 $A$:

  1. $A$有特征值$\lambda$(最大正特征值),代数重数为 1,且有特征向量

  2. 其余特征值的模都 $< \lambda$3.$A$与$A^T$有相同的最大正特征值$\lambda$称为$A$ 的 Frobenius 根(谱半径)。

13.3 非负矩阵版

对非负方阵,结论类似但特征向量只是非负(不一定严格正)。

老师点评:Perron-Frobenius 定理是 Google 的 PageRank 算法的理论基础。Web 链接矩阵是非负矩阵,PageRank 向量就是它的 Frobenius 根对应的特征向量。没有这个定理,我们就无法保证 PageRank 的存在性和唯一性。此外,在 ergodic 马尔可夫链中,平稳分布也是由这个定理保证的。


14. 矩阵范数与特征值估计

14.1 诱导范数

实矩阵 $B$ 的欧氏诱导范数

$$ ||B|| := \max_{||X||=1} ||BX|| = \sqrt{\lambda_1(B^T B)} = \sigma_1(B) $$

即最大奇异值。

若 $A$ 实对称,$||A|| = \max_i |\lambda_i(A)|$(最大特征值的绝对值)。

14.2 范数性质

  1. $||A|| > 0$($A \neq 0$)

  2. $||kA|| = |k| \cdot ||A||$

  3. 三角不等式:$||A+B|| \leq ||A|| + ||B||$

  4. 次乘性:$||AB|| \leq ||A|| \cdot ||B||$5.$||A^T|| = ||A||$

14.3 二次型的取值范围

对实对称 $A$,$\lambda_n ||X||^2 \leq X^T A X \leq \lambda_1 ||X||^2$。

等号成立 $\iff$ $X$ 在对应特征子空间内。

老师讲解:这个不等式是理解对称矩阵特征值几何意义的核心。$X^T A X$ 的值被最大和最小特征值”夹”在中间。这在优化理论中是 Rayleigh 商的基础。

14.4 例题:Hilbert 矩阵的特征值上界

:$A = [\frac{1}{i+j-1}]_{n \times n}$的特征值都$> 0$且$\leq 3 + 2\sqrt{2}$。

:记 $B$ 为全 1 下三角矩阵,$D = I$。则 $A = B^T B = B + B^T - D$。

$B$可逆$\Rightarrow A$正定$\Rightarrow$特征值$> 0$。

$$ ||A|| \leq ||B|| + ||B^T|| + ||D|| = 2||B|| + 1 = 2\sqrt{\lambda_1(B^T B)} + 1 $$

由 $\lambda_1 \leq (2\sqrt{\lambda_1} + 1)^2$,解得 $\sqrt{\lambda_1} \leq 1 + \sqrt{2}$,故 $\lambda_1 \leq 3 + 2\sqrt{2}$。

老师点评:Hilbert 矩阵是著名的病态矩阵——虽然正定,但条件数随 $n$ 指数增长。这个例子展示了用范数不等式估计特征值上界的标准技巧:分解矩阵、分别估计、合并。


15. Penrose 广义逆与 SVD

15.1 Penrose 广义逆

对任意复矩阵 $A$,存在唯一矩阵 $X$ 满足:

$$ AXA = A, \quad XAX = X, \quad (AX)^H = AX, \quad (XA)^H = XA $$

$X$记为$A^+$,称为 Penrose 广义逆

若 $A$ 列满秩,$A^+ = (A^T A)^{-1} A^T$(这就是最小二乘解的公式!)。

15.2 SVD 与广义逆

若 $A = P S Q^H$(奇异值分解),则:

$$ A^+ = Q \cdot \mathrm{diag}(\sigma_1^{-1}, \dots, \sigma_r^{-1}, 0, \dots, 0) \cdot P^H $$

老师讲解:SVD 是线性代数中最强大的分解工具。特征值分解只对可逆/正规矩阵有效,但 SVD 对任何矩阵都成立。SVD 的应用包括:数据压缩(PCA)、图像去噪、推荐系统(矩阵补全)、求解超定/欠定方程组。$A^+$ 通过 SVD 构造,把非零奇异值求倒数、零奇异值保持为零,这是最自然的”广义逆”定义。

15.3 MATLAB 数值计算

  • [U, D] = eig(A):特征值分解

  • [P, S, Q] = svd(A):奇异值分解

  • [Q, R] = qr(B):QR 分解

  • rref(B):行最简形

注意:Jordan 标准型数值不稳定,计算前需用 sym 转为符号矩阵。这是因为 Jordan 块对矩阵元素的小扰动极其敏感——任意矩阵都可以被任意接近的、可对角化的矩阵逼近,所以数值计算中 Jordan 块会”散开”。


16. Cauchy Interlacing 与 Courant-Fischer Min-Max 定理 ★研究级工具★

16.1 Cauchy Interlacing 原理

定理:$n$级实对称矩阵$A$的特征值$\lambda_1 \geq \cdots \geq \lambda_n$。$A$的$n-1$级主子阵$B$的特征值$\mu_1 \geq \cdots \geq \mu_{n-1}$。则:

$$ \lambda_1 \geq \mu_1 \geq \lambda_2 \geq \mu_2 \geq \cdots \geq \mu_{n-1} \geq \lambda_n $$

老师讲解:”Interlacing”就是”交错”——主子阵的特征值”穿插”在原矩阵特征值之间。这个定理在图论(图的子图特征值)、随机矩阵理论、数值线性代数中都有重要应用。

16.2 Weyl 定理

$A, B$实对称,特征值$\lambda_1 \geq \cdots \geq \lambda_n$和$\mu_1 \geq \cdots \geq \mu_n$。$A+B$的特征值$\tau_k$ 满足:

$$ \lambda_k + \mu_1 \geq \tau_k \geq \lambda_k + \mu_n $$

老师点评:Weyl 定理描述了”扰动的特征值如何移动”。如果 $B$ 是小扰动,$\tau_k$不会偏离$\lambda_k$太多——最多偏离$\mu_1 - \mu_n$($B$ 的谱宽)。这是数值分析中特征值稳定性的理论基础。

16.3 ★Courant-Fischer Min-Max 定理★

定理:实对称 $A$的特征值$\lambda_1 \geq \cdots \geq \lambda_n$,对应正交单位特征向量 $\alpha_1, \dots, \alpha_n$。则:

$$ \lambda_k = \min_{\substack{V \subseteq \mathbb{R}^n \\ \dim V = n-k+1}} \max_{0 \neq \alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} $$

老师点评:这是研究级的工具。它给出了特征值的变分刻画——$\lambda_k$不是某个特定向量的 Rayleigh 商,而是所有$n-k+1$ 维子空间上 Rayleigh 商最大值的最小值。这个定理是有限元方法、谱图理论、量子力学变分原理的共同基础。

证明思路:记 $U = \langle \alpha_1, \dots, \alpha_k \rangle$。对任意 $n-k+1$维子空间$V$:

$$ \dim V + \dim U = n+1 > n = \dim(V + U) $$

由维数公式,$\dim(V \cap U) \geq 1$。取 $0 \neq \gamma \in V \cap U$,则 $\gamma \in U \Rightarrow \frac{\gamma^T A \gamma}{\gamma^T \gamma} \geq \lambda_k$(因为 $U$中向量的 Rayleigh 商$\geq \lambda_k$)。

故 $\max_{\alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} \geq \frac{\gamma^T A \gamma}{\gamma^T \gamma} \geq \lambda_k$。 $\square$

老师讲解:证明的核心是维数论证——两个”够大”的子空间一定有非零交集。这是线性代数中最优美的论证技巧之一,在泛函分析和代数拓扑中也反复出现。

16.4 应用:半正定矩阵的特征值比较

定理:若 $A, B$ 实对称,$A - B$半正定,则$\lambda_k(A) \geq \lambda_k(B)$。

证明:$A-B$半正定$\Rightarrow \alpha^T A \alpha \geq \alpha^T B \alpha$。由 Min-Max:

$$ \lambda_k(A) = \min_{\dim V=n-k+1} \max_{\alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} \geq \min_{\dim V=n-k+1} \max_{\alpha \in V} \frac{\alpha^T B \alpha}{\alpha^T \alpha} = \lambda_k(B) $$

$\square$### 16.5 Cauchy Interlacing 的推广证明$A + t\alpha\alpha^T$($t \geq 0$,$||\alpha|| = 1$)的特征值 $\mu_k$ 满足:

$$ \lambda_1 + t \geq \mu_1 \geq \lambda_1 \geq \mu_2 \geq \lambda_2 \geq \cdots \geq \mu_n \geq \lambda_n $$

证明:$t\alpha\alpha^T$半正定$\Rightarrow \mu_k \geq \lambda_k$(上题)。又:

$$ \mu_1 = \max_{||\beta||=1} \beta^T(A + t\alpha\alpha^T)\beta \leq \lambda_1 + t $$

对 $\mu_{k+1}$,在 $\alpha^\perp$($n-1$维)中取$n-k$维子空间,由 Min-Max 得$\lambda_k \geq \mu_{k+1}$。 $\square$


17. 三维旋转的矩阵表示:Rodrigues 公式

17.1 问题设定

设 $\alpha = (a_1, a_2, a_3)^T$ 是单位向量(旋转轴),$\theta$是旋转角。求绕$\alpha$旋转$\theta$的矩阵$A$。

17.2 几何推导

将任意 $\beta \in \mathbb{R}^3$ 分解:

$$ \beta = \beta_1 + \beta_2, \quad \beta_1 = (\beta, \alpha)\alpha \in \langle\alpha\rangle, \quad \beta_2 = \beta - (\beta, \alpha)\alpha \in \langle\alpha\rangle^\perp $$

记 $\gamma = \alpha \times \beta_2 = \alpha \times \beta$。则 $\alpha, \beta_2, \gamma$ 构成右手系,$||\gamma|| = ||\beta_2||$。

旋转后:

$$ A\beta = \beta_1 + \cos\theta \cdot \beta_2 + \sin\theta \cdot \gamma $$

17.3 化为矩阵形式

定义叉积矩阵 $C = \begin{bmatrix} 0 & a_3 & -a_2 \ -a_3 & 0 & a_1 \ a_2 & -a_1 & 0 \end{bmatrix}$,满足 $\beta \times \alpha = C\beta$。

代入并整理:

$$ \begin{aligned}

A\beta &= (\beta, \alpha)\alpha + \cos\theta(\beta - (\beta,\alpha)\alpha) + \sin\theta \cdot \alpha \times \beta \

&= \cos\theta \cdot \beta + (1-\cos\theta)(\alpha\alpha^T)\beta - \sin\theta \cdot C\beta \

&= (\cos\theta \cdot I + (1-\cos\theta)\alpha\alpha^T - \sin\theta \cdot C)\beta

\end{aligned}
$$

利用 $\alpha\alpha^T - I = C^2$(可验证),最终得到 Rodrigues 公式

$$ A = I - \sin\theta \cdot C + (1 - \cos\theta) C^2 $$

老师讲解:Rodrigues 公式在计算机图形学、机器人学、航空航天中是基础工具。任何 3D 旋转都可以用”轴+角”表示,Rodrigues 公式给出了从轴角到矩阵的显式转换。

17.4 矩阵指数表示

更简洁地:$A = e^{\theta C}$。

为什么? 因为 $C$是反对称矩阵且$||\alpha|| = 1$,有 $C^3 = -C$,$C^4 = -C^2$,$C^5 = C$,……循环周期为 4。展开 $e^{\theta C}$ 的幂级数:

$$ e^{\theta C} = I + \theta C + \frac{\theta^2}{2!} C^2 + \frac{\theta^3}{3!} C^3 + \cdots $$

利用 $C^3 = -C$,$C^4 = -C^2$等,奇次项合并为$\sin\theta \cdot C$,偶次项合并为 $(1-\cos\theta)C^2$,正好得到 Rodrigues 公式。

老师点评:$e^{\theta C}$这个记号不是形式上的——矩阵指数$e^A = \sum \frac{A^k}{k!}$对任何矩阵都收敛。若$A = UJU^{-1}$(Jordan 分解),则 $e^A = U e^J U^{-1}$。这在微分方程理论中是核心工具:$\dot{x} = Ax$的解是$x(t) = e^{At} x(0)$。

17.5 从旋转矩阵恢复轴和角

由 $A = I - \sin\theta \cdot C + (1-\cos\theta)C^2$:

  • $I + (1-\cos\theta)C^2$ 是对称的

  • $-\sin\theta \cdot C$ 是反对称的

故 $A^T - A = 2\sin\theta \cdot C$。由此可读出:

  • $\theta = \arccos\left(\frac{\mathrm{tr}(A) - 1}{2}\right)$-$\alpha$从$C$ 的非零元素恢复

18. 综合习题选编

习题 1:刚体运动的螺旋结构(Chasles 定理)

设 $\mathcal{A}$是$\mathbb{R}^3$ 上的保距变换($||\mathcal{A}\alpha - \mathcal{A}\beta|| = ||\alpha - \beta||$)且保持定向。证明:存在直线 $\mathcal{L}$,使得 $\mathcal{A}$是以$\mathcal{L}$为轴的旋转与沿$\mathcal{L}$ 方向的平移的复合。

提示:这是 Chasles 定理。先证 $\mathcal{A}$ 的线性部分是第一类正交矩阵(有实特征值 1,对应旋转轴),再分析平移分量。

习题 2:钝角向量个数

证明:$n$维欧氏空间中,两两夹角都是钝角的非零向量至多$n+1$ 个。

提示:考虑把这些向量”提升”到 $\mathbb{R}^{n+1}$ 中,利用线性无关性论证。

习题 3:Hadamard 乘积保持半正定性 ★

设 $A = [a_{ij}], B = [b_{ij}]$是$n$阶半正定矩阵。证明$C = [a_{ij} b_{ij}]$ 也半正定。

:$A$半正定$\Rightarrow A = \sum_{k=1}^n \lambda_k \alpha_k \alpha_k^T$($\lambda_k \geq 0$)。故 $a_{ij} = \sum_k \lambda_k p_{ik} p_{jk}$,其中 $p_{ik}$是正交矩阵$P$ 的元素。

$$ X^T C X = \sum_{i,j} a_{ij} b_{ij} x_i x_j = \sum_{i,j} \left(\sum_k \lambda_k p_{ik} p_{jk}\right) b_{ij} x_i x_j = \sum_k \lambda_k \left(\sum_{i,j} b_{ij} (p_{ik} x_i)(p_{jk} x_j)\right) $$

对每个固定的 $k$,令 $y_i = p_{ik} x_i$,则 $\sum_{i,j} b_{ij} y_i y_j = Y^T B Y \geq 0$($B$半正定)。故$X^T C X \geq 0$。 $\square$> 老师点评:这个定理叫 Schur product theorem。证明的精髓是用谱分解把$a_{ij}$”拆开”,然后交换求和顺序,发现内层恰好是$B$ 的二次型。这是处理 Hadamard 乘积的标准技巧。

习题 4:子空间距离公式

设 $U, V$是$\mathbb{R}^n$ 的子空间,$\beta \in \mathbb{R}^n$。证明:

$$ \mathrm{dis}(\beta + U, V) = \mathrm{dis}(\beta, U + V) $$

提示:$||(\beta - \alpha) - \gamma|| = ||\beta - (\alpha + \gamma)||$,$\forall \alpha \in U, \gamma \in V$。两边取最小值即得。

习题 5:正规变换的谱投影

设 $\mathcal{A}$是酉空间$V$ 上的正规变换,$\lambda_1, \dots, \lambda_s$是互异特征值。记$\mathcal{P}i = h_i(\mathcal{A})$,其中 $h_i(x) = \prod{j \neq i} \frac{x - \lambda_j}{\lambda_i - \lambda_j}$。

证明:

  1. $\mathcal{P}_i$是向$\mathrm{Ker}(\mathcal{A} - \lambda_i I)$ 的正交投影

  2. $g(\mathcal{A}) = \sum_i g(\lambda_i) \mathcal{P}_i$(对任意幂级数 $g$)

  3. 存在多项式 $f$使$f(\mathcal{A}) = \mathcal{A}^*$

提示:$h_i(x)$ 是 Lagrange 插值多项式。$\mathcal{P}i$的特征值是$\delta{ij}$(在 $\lambda_j$处取值)。正规性保证不同特征值的特征子空间正交,所以$\mathcal{P}_i$ 是正交投影。


总结:本章的知识脉络


复向量的长度问题

    ↓

共轭双线性函数 → 度量矩阵 → 基变换公式 P^T A P̄

    ↓

加上共轭对称 + 正定 → Hermite 内积 ↔ Hermite 正定矩阵

    ↓

Cholesky 分解 A = P^T P̄

    ↓

酉空间 = 配 Hermite 内积的复线性空间

    ├── Cauchy-Schwarz → 三角不等式 → 夹角 → 标准正交基

    ├── 酉矩阵 (U^H U = I) → 酉群 U(n), SU(n)

    ├── Fourier 矩阵 → FFT (O(n²) → O(n log n))

    ├── 酉变换(保内积)↔ 酉矩阵

    ├── Hermite 变换(自伴随)↔ Hermite 矩阵

    ├── 共轭变换 A* ↔ A^H

    └── ★正规变换 (AA* = A*A) → 酉对角化 A = UDU^H

            ├── 推论:酉/Hermite/反Hermite 的谱分解

            └── 推论:不变子空间的正交补仍不变

  

延伸:

    ├── 正交空间 / 辛空间(不定度量)→ Minkowski 空间 → Witt 定理

    ├── 正交投影 → 最小二乘法

    ├── Perron-Frobenius → 非负矩阵的谱理论

    ├── 矩阵范数 → 特征值估计

    ├── SVD → Penrose 广义逆

    ├── Courant-Fischer Min-Max → 特征值变分刻画

    └── Rodrigues 公式 → 三维旋转的矩阵指数表示

最后的忠告:这一章的内容是后续学习数值线性代数量子力学信号处理机器学习的共同基础。正规矩阵的酉对角化、SVD、Courant-Fischer 定理,这三个工具在你未来的学习和研究中会反复出现。务必做到:看到 Hermite 矩阵就想到”特征值是实数、可酉对角化”;看到酉矩阵就想到”特征值在单位圆上、保持内积”;看到正定矩阵就想到”Cholesky 分解、所有顺序主子式 > 0”。