数学随笔7
Vandermonde的神秘出现。
加载过慢请开启缓存 浏览器默认开启
高中学习向量时,便常听老师说要有基底思想,要学会用一组基表示所有向量。
到了学习线代,基底仍然是非常好的化抽象为具象的手段。一个抽象的线性映射往往让人无从下手,设出基底,我们才能看到一个个的可感的对象。
通常的处理方法是取一组基,扩充到全空间,然后分析。对于多个空间的情形,我们往往设出最小的空间,然后逐个扩大,这样通常是易于叙述的。
时感学数学如隔雾看花,终究隔一层,经冲浪看到b站up pikachu,以及听ztf习题课之时,却感觉到目前我所接触的数学,或者说我应该掌握的数学,实际上对天赋并没有过高要求,一反往常的刻板印象,反而是需要沉淀,需要经验来把握的。过去的学习总感觉欠一些东西,于是打算试试写作记录。不管出于朴素的兴趣或是客观需要,大概我希望把数学学好的,遂计划开坑写写随笔,作为所谓工具箱,或是思维库。
来源:线代 A II 讲义,第 203–357 页
整理者注:本章是整门线代课程中理论深度最大、应用最广的一章。它把前面学过的内积、正交、对称变换等概念推广到复数域,并由此引出酉矩阵、Hermite 矩阵、正规矩阵对角化等一系列核心结论。学完这一章,你对”矩阵的本质”会有质的飞跃。
同学们,在上一章我们学了欧氏空间——配上内积的实线性空间。内积给了我们长度、角度、正交这些几何概念,一切都很美好。
但现在我们进入复数域了。自然的问题是:在复线性空间上,如何定义向量的长度?
最直接的想法是:照搬实空间的公式呗。对 $\mathbf{z} = (z_1, \dots, z_n)^T \in \mathbb{C}^n$,定义 $||\mathbf{z}||^2 = z_1^2 + z_2^2 + \cdots + z_n^2$。
但这立刻出问题了。 考虑向量 $\begin{bmatrix} 1 \ i \end{bmatrix}$,它的”长度平方”是 $1^2 + i^2 = 1 - 1 = 0$。一个非零向量的长度是 0?这完全违背了长度的基本直觉。
问题出在哪?出在我们忘了复数的”模”是怎么定义的。一个复数 $z$的模平方是$|z|^2 = z\bar{z}$,不是 $z^2$。
所以复向量的长度应该定义为:
$$ ||\mathbf{z}||^2 = z_1\bar{z}_1 + z_2\bar{z}_2 + \cdots + z_n\bar{z}_n = \mathbf{z}^T\bar{\mathbf{z}} $$
老师点评:这一步看似 trivial,但它是整章的起点。从这里出发,我们会发现复空间上的”内积”不能是双线性的,而必须是共轭双线性的(sesquilinear)。这是复分析与量子力学中内积的标准形式,理解这一点对你后续学量子力学非常有帮助——量子态的内积 $\langle\psi|\phi\rangle$ 就是共轭双线性的。
定义(共轭双线性函数):在复线性空间 $V$上,二元函数$f(\alpha, \beta)$ 称为共轭双线性函数,若满足:
$$ \begin{aligned}
f(k\alpha + l\beta, \gamma) &= k f(\alpha, \gamma) + l f(\beta, \gamma) &\quad &\text{(对第一个变量线性)} \
f(\gamma, k\alpha + l\beta) &= \bar{k} f(\gamma, \alpha) + \bar{l} f(\gamma, \beta) &\quad &\text{(对第二个变量共轭线性)}
\end{aligned}
$$
对任意 $k, l \in \mathbb{C}$。
注意:这里有一个约定问题。数学界和物理界对”哪个变量共轭线性”有相反的约定。数学通常让第二个变量共轭线性(如上),物理(Dirac 记号)通常让第一个变量共轭线性。两种约定本质等价,但混用会出符号错误,务必保持一致。
和上一章对称双线性函数完全类似,选定基之后,共轭双线性函数也可以用矩阵来表示。
设 $\alpha, \beta$在基$\alpha_1, \dots, \alpha_n$下的坐标为$X = (x_1, \dots, x_n)^T$,$Y = (y_1, \dots, y_n)^T$。利用共轭双线性逐次展开:
$$ \begin{aligned}
f(\alpha, \beta) &= f\left(\sum_i x_i \alpha_i,\ \sum_j y_j \alpha_j\right) \
&= \sum_{i=1}^n \sum_{j=1}^n x_i \bar{y}_j \cdot f(\alpha_i, \alpha_j) \
&= X^T A \bar{Y}
\end{aligned}
$$
其中 $A = [f(\alpha_i, \alpha_j)]_{n \times n}$称为$f$ 在该基下的度量矩阵。
老师讲解:注意这里的公式是 $X^T A \bar{Y}$,不是上一章的 $X^T A Y$。差别就在 $\bar{Y}$ 上——因为第二个变量是共轭线性的,所以坐标要取共轭。这个细节在后续推导中反复出现,一定要养成条件反射。
结论:固定基底后,共轭双线性函数与复矩阵(度量矩阵)一一对应。
定理:若 $f$在基底$\alpha_1, \dots, \alpha_n$下的度量矩阵为$A$,新基底 $(\beta_1, \dots, \beta_n) = (\alpha_1, \dots, \alpha_n)P$,则 $f$ 在新基下的度量矩阵为:
$$ P^T A \bar{P} $$
证明:设向量在 ${\beta}$基下的坐标为$X_i, Y_i$,则在 ${\alpha}$基下的坐标为$PX_i, PY_i$。于是:
$$ f(\cdot, \cdot) = (PX_i)^T A \overline{(PY_i)} = X_i^T (P^T A \bar{P}) \bar{Y}_i $$
故新度量矩阵为 $P^T A \bar{P}$。 $\square$> 对比:上一章实对称双线性函数的基变换公式是$P^T A P$。这里变成了 $P^T A \bar{P}$,多了一个共轭。如果 $P$ 恰好是实矩阵,两个公式就一样了。
并不是所有共轭双线性函数都能当”内积”用。我们需要两个额外条件:
定义(Hermite 内积):若共轭双线性函数 $(\cdot, \cdot)$ 满足:
共轭对称:$(\alpha, \beta) = \overline{(\beta, \alpha)}$,$\forall \alpha, \beta$
正定:$(\alpha, \alpha) > 0$,$\forall \alpha \neq 0$则称$(\cdot, \cdot)$ 为复(Hermite)内积。
老师点评:条件 1 看起来有点奇怪——为什么不要求 $(\alpha, \beta) = (\beta, \alpha)$?因为如果是共轭双线性的,强求对称性会导致 $(\alpha, \alpha)$未必是实数,那就没法定义长度了。共轭对称性恰好保证了$(\alpha, \alpha) = \overline{(\alpha, \alpha)}$,即 $(\alpha, \alpha)$ 是实数,再配合正定性,$||\alpha|| = \sqrt{(\alpha, \alpha)}$ 就有意义了。
定义:复矩阵 $A$称为 Hermite 矩阵,若$A^H := \bar{A}^T = A$(即 $a_{ij} = \bar{a}_{ji}$)。
若 Hermite 矩阵 $A$还满足$\bar{X}^T A X > 0$对所有$X \neq 0$,则称 $A$ 为Hermite 正定矩阵。
老师讲解:Hermite 矩阵就是实对称矩阵在复数域的自然推广。实对称矩阵满足 $A^T = A$,Hermite 矩阵满足 $A^H = A$。当你把”转置”换成”共轭转置”,实对称理论中绝大多数结论都可以原封不动地推广过来。这是本章最重要的思维模式。
引入记号 $A^H := \bar{A}^T$(共轭转置,也叫 Hermite 转置)。基本性质:
命题:共轭双线性函数 $f$是复内积$\iff$ $f$在任意基下的度量矩阵$A$ 是 Hermite 正定矩阵。
证明:设 $\alpha, \beta$的坐标为$X, Y$。
共轭对称 $\iff$ Hermite:
$$ (\alpha, \beta) = \overline{(\beta, \alpha)} \iff X^T A \bar{Y} = \overline{Y^T A \bar{X}} = \bar{Y}^T \bar{A} X = X^T \bar{A}^T \bar{Y} \iff A = \bar{A}^T = A^H $$
正定性:$(\alpha, \alpha) > 0 \iff \bar{X}^T A X > 0$对所有$X \neq 0$。 $\square$
老师点评:这个等价性极其重要。它意味着:研究复内积的问题,可以完全转化为研究 Hermite 正定矩阵的问题。矩阵工具有什么,我们就用什么。这是”坐标化”思维的威力。
定理:设 $A$ 是 Hermite 矩阵,则以下等价:
$A$ 复正定($\bar{X}^T A X > 0$对所有$X \neq 0$)
$A$的特征值都$> 0$3.$A = P^T \bar{P}$,其中 $P$ 是上三角可逆复矩阵
$A$的顺序主子式都$> 0$> 老师讲解:这四个条件在实对称正定矩阵中我们已经见过。复的情形证明思路完全一样,只是把转置$T$换成共轭转置$H$。条件 (2) 让你用特征值判断正定性;条件 (3) 是 Cholesky 分解,有计算意义;条件 (4) 是 Sylvester 准则,只检查主子式就行,不用求特征值。
定理(Cholesky 分解):
$$ A \text{ 是复正定矩阵} \iff A = P^T \bar{P} $$
其中 $P$是对角元都$> 0$ 的上三角矩阵。
动机:我们要把 $A$合同变换为单位矩阵。方法是共轭成对的行列变换——即同时做第$i$行和第$i$列的相同初等变换。这相当于右乘上三角矩阵$P$再左乘$P^T$。
以 $4 \times 4$ 为例,$A$的顺序主子式都$> 0$:
通过成对高斯消去,$A$逐步化为对角矩阵$\mathrm{diag}(a_{11}, b_{22}, c_{33}, d_{44})$,再对每个对角元开方归一化,最终得到 $P^T \bar{P} = A$。
老师点评:Cholesky 分解在数值计算中极其重要。求解正定线性方程组 $Ax = b$时,用 Cholesky 分解$A = P^T \bar{P}$,然后先后解 $\bar{P}y = b$和$P^T x = y$(两次回代),比 Gauss 消元快一倍且数值稳定性更好。金融工程中的 Monte Carlo 模拟、机器学习中的高斯过程,都大量用到 Cholesky 分解。
定义:配有 Hermite 内积的复线性空间称为酉空间(Unitary space)。
在酉空间中:
长度:$||\alpha|| := \sqrt{(\alpha, \alpha)}$
正交:$\alpha \perp \beta \iff (\alpha, \beta) = 0$
距离:$d(\alpha, \beta) := ||\alpha - \beta||$
这是整个度量理论的基石。
定理:$||\alpha|| \cdot ||\beta|| \geq |(\alpha, \beta)|$,等号成立 $\iff \alpha, \beta$ 共线。
证明:设 $\beta \neq 0$。由正定性,对任意复数 $t$:
$$ (\alpha - t\beta, \alpha - t\beta) \geq 0 $$
展开(注意共轭线性):
$$ (\alpha, \alpha) - t(\alpha, \beta) - \bar{t}(\beta, \alpha) + t\bar{t}(\beta, \beta) \geq 0 $$
关键步骤:取 $t = \dfrac{(\alpha, \beta)}{(\beta, \beta)}$。为什么取这个?因为这是让上式取最小值的 $t$(类比二次函数顶点)。代入得:
$$ (\alpha, \alpha)(\beta, \beta) - |(\alpha, \beta)|^2 \geq 0 $$
即 $||\alpha|| \cdot ||\beta|| \geq |(\alpha, \beta)|$。 $\square$> 老师讲解:注意和实空间的区别——右边是$|(\alpha, \beta)|$(绝对值),不是 $|(\alpha, \beta)|$的绝对值,因为$(\alpha, \beta)$本身可能是复数。等号成立当且仅当$\alpha = t\beta$,即共线。
定理:$||\alpha + \beta|| \leq ||\alpha|| + ||\beta||$。
证明:
$$ \begin{aligned}
||\alpha + \beta||^2 &= (\alpha+\beta, \alpha+\beta) \
&= (\alpha,\alpha) + (\alpha,\beta) + (\beta,\alpha) + (\beta,\beta) \
&= ||\alpha||^2 + 2\mathrm{Re}(\alpha,\beta) + ||\beta||^2 \
&\leq ||\alpha||^2 + 2|(\alpha,\beta)| + ||\beta||^2 \
&\leq ||\alpha||^2 + 2||\alpha||\cdot||\beta|| + ||\beta||^2 \quad \text{(C-S 不等式)} \
&= (||\alpha|| + ||\beta||)^2
\end{aligned}
$$
开方即得。 $\square$> 老师点评:注意第三行到第四行用到了$\mathrm{Re}(z) \leq |z|$。这是复数情形的一个微妙之处——实空间里 $(\alpha,\beta) + (\beta,\alpha) = 2(\alpha,\beta)$,但复空间里 $(\alpha,\beta) + (\beta,\alpha) = (\alpha,\beta) + \overline{(\alpha,\beta)} = 2\mathrm{Re}(\alpha,\beta)$。
定义 $\alpha, \beta$的夹角$\theta$满足$\cos\theta = \dfrac{|(\alpha, \beta)|}{||\alpha|| \cdot ||\beta||}$。
注意:在复空间中,$\theta$实际上是实平面$\langle \alpha, i\alpha \rangle$与$\langle \beta, i\beta \rangle$ 之间的最小夹角。这和实空间的直觉略有不同。
标准正交基:两两正交的单位向量构成的基。$\beta_1, \dots, \beta_n$是标准正交基$\iff$内积在${\beta_i}$下的度量矩阵为$I$。
定义:复方阵 $U$ 是酉矩阵,若满足以下等价条件之一:
老师讲解:酉矩阵就是”复版正交矩阵”。正交矩阵 $Q$满足$Q^T Q = I$,酉矩阵 $U$满足$U^H U = I$。把 $T$换成$H$,一切照旧。酉矩阵的列是标准正交的,行也是标准正交的(因为 $U U^H = I$ 也成立)。
定理:
酉矩阵的特征值 $\lambda$满足$|\lambda| = 1$(全在单位圆上)
Hermite 矩阵的特征值都是实数
反 Hermite 矩阵($A^H = -A$)的特征值都是纯虚数或 0
证明(酉矩阵):设 $A\alpha = \lambda\alpha$,$\alpha \neq 0$。取共轭转置:$\bar{\alpha}^T A^H = \bar{\lambda}\bar{\alpha}^T$。
$$ \bar{\alpha}^T \alpha = \bar{\alpha}^T A^H A \alpha = \bar{\lambda}\lambda \bar{\alpha}^T \alpha = |\lambda|^2 \bar{\alpha}^T \alpha $$
由 $\bar{\alpha}^T \alpha = ||\alpha||^2 \neq 0$,得 $|\lambda| = 1$。 $\square$> 老师点评:这个证明非常漂亮——用$A^H A = I$直接把$\lambda$和$\bar{\lambda}$凑在一起得到$|\lambda|^2$。Hermite 矩阵的证明类似:$A\alpha = \lambda\alpha \Rightarrow \bar{\alpha}^T A \alpha = \lambda \bar{\alpha}^T \alpha$,左边 $= \overline{\bar{\alpha}^T A \alpha} = \bar{\lambda} \bar{\alpha}^T \alpha$(因为 $A = A^H$),所以 $\lambda = \bar{\lambda}$,即 $\lambda \in \mathbb{R}$。
$$ U(n) = \{U \in M_n(\mathbb{C}) \mid U^H U = I\}, \quad SU(n) = \{U \in U(n) \mid \det U = 1\} $$
$U(n)$是$n$ 级酉群,$SU(n)$ 是特殊酉群。
老师点评:酉群在物理学中无处不在。$SU(2)$ 描述自旋,$SU(3)$ 是量子色动力学的规范群,$U(1)$是量子电动力学的规范群。标准模型的规范群是$SU(3) \times SU(2) \times U(1)$。学好酉矩阵,对理解现代物理有直接帮助。
$$ F_n = \frac{1}{\sqrt{n}} \begin{bmatrix}
1 & 1 & 1 & \cdots & 1 \
1 & \zeta & \zeta^2 & \cdots & \zeta^{n-1} \
1 & \zeta^2 & \zeta^4 & \cdots & \zeta^{2(n-1)} \
\vdots & \vdots & \vdots & \ddots & \vdots \
1 & \zeta^{n-1} & \zeta^{2(n-1)} & \cdots & \zeta^{(n-1)^2}
\end{bmatrix}, \quad \zeta = e^{2\pi i / n}
$$
$F_n$ 是酉矩阵。$F_n$的列向量$\alpha_0, \dots, \alpha_{n-1}$构成$\mathbb{C}^n$ 的标准正交基。
傅立叶变换:$X = F_n Y$把系数$Y = (y_0, \dots, y_{n-1})^T$(傅立叶系数)变成信号 $X$。逆变换:$Y = F_n^H X$。
老师讲解:FFT 可能是本章工程应用价值最高的内容。没有 FFT,就没有现代数字信号处理、没有 MP3 压缩、没有 WiFi 通信(OFDM)、没有 MRI 成像。FFT 把 DFT 的复杂度从 $O(n^2)$降到$O(n \log n)$,这是计算机科学的里程碑。
关键观察:$F_{2n}$的元素有周期性。记$\varepsilon = e^{2\pi i / 2n}$,则 $\varepsilon^2 = e^{2\pi i / n} = \zeta_n$,且 $\varepsilon^{k+n} = -\varepsilon^k$。
利用这个性质,把 $F_{2n}$ 的奇数列移到前面、偶数列移到后面,得到分块分解:
$$ F_{2n} = \begin{bmatrix} I_n & D_n \\ I_n & -D_n \end{bmatrix} \begin{bmatrix} F_n & 0 \\ 0 & F_n \end{bmatrix} \Gamma_{2n} $$
其中 $D_n = \mathrm{diag}(1, \varepsilon, \varepsilon^2, \dots, \varepsilon^{n-1})$,$\Gamma_{2n}$ 是奇偶列置换。
于是计算 $F_{2n} X$ 变成:
$$ F_{2n} X = \begin{bmatrix} F_n X_1 + D_n F_n X_2 \\ F_n X_1 - D_n F_n X_2 \end{bmatrix} $$
其中 $X_1$是$X$ 的奇数位置元素,$X_2$ 是偶数位置元素。
老师讲解:这就是”蝶形运算”(butterfly operation)。一个 $2n$点的 DFT 被分解为两个$n$点的 DFT 加上$n$ 次复数乘法。递归下去:
$$ N_{2n} = 2N_n + n $$
展开($n = 2^k$):
$$ N_{2^k} = \frac{n}{2} \log_2 n = \frac{n}{2} k $$
| $n$| 直接$n^2$| FFT$\frac{n}{2}\log_2 n$ | 加速比 |
|—|—|—|—|
| $2^{12} = 4096$ | 16384 | 192 | 85x |
| $2^{20} \approx 10^6$|$10^{12}$| 5120 |$2 \times 10^8$ x |
| $2^{40} \approx 10^{12}$|$10^{24}$ | 5242880 | 天文数字 |
老师点评:当 $n = 2^{40}$时,直接计算需要$10^{24}$次乘法——即使每秒算$10^{18}$ 次(exascale 超算),也要算 30 年。而 FFT 只需要 500 万次,几毫秒就完了。这就是算法的力量。
定义:酉空间上保持内积的线性变换 $A$:
$$ (A\alpha, A\beta) = (\alpha, \beta), \quad \forall \alpha, \beta $$
定理:以下等价:
$A$ 是酉变换
$A$ 把标准正交基映为标准正交基
$A$ 在标准正交基下的矩阵是酉矩阵
证明:设 $\beta_1, \dots, \beta_n$ 是标准正交基。$(A\beta_1, \dots, A\beta_n) = (\beta_1, \dots, \beta_n)A$。左边是标准正交基 $\iff$ $A$是酉矩阵。$\square$
老师讲解:酉变换就是”复版正交变换”。正交变换保持实内积,酉变换保持复内积。几何上,酉变换是复空间的”刚性运动”——不改变长度和夹角。
定义:若 $(A\alpha, \beta) = (\alpha, A\beta)$对所有$\alpha, \beta$,则 $A$ 是 Hermite(自伴随)变换。
定理:$A$是 Hermite 变换$\iff$ $A$ 在标准正交基下的矩阵是 Hermite 矩阵。
定理:Hermite 矩阵的特征值都是实数。
老师点评:Hermite 变换在量子力学中对应可观测量(observable)。量子力学的公理之一就是:每一个物理可观测量对应一个 Hermite 算子,测量结果就是该算子的特征值(必须是实数,所以要求 Hermite)。这就是为什么 Hermite 矩阵的特征值都是实数这条定理如此重要——它保证了量子力学测量的结果确实是实数。
定义:设 $A$是酉空间上的线性变换。若存在$A^*$ 使得:
$$ (A\alpha, \beta) = (\alpha, A^*\beta), \quad \forall \alpha, \beta $$
则称 $A^$是$A$ 的*共轭变换(adjoint operator)。
例子:
酉变换 $U$的共轭变换是$U^{-1}$(因为 $(U\alpha, \beta) = (\alpha, U^{-1}\beta)$)
Hermite 变换 $A$的共轭变换是$A$ 自身
定理:有限维酉空间上,任何线性变换 $A$都有唯一的共轭变换$A^$。在标准正交基下,若 $A$的矩阵为$A$,则 $A^$的矩阵为$A^H$。
证明:设 $A, A^*$在标准正交基下的矩阵为$A, B$,$\alpha, \beta$的坐标为$X, Y$:
$$ (A\alpha, \beta) = \bar{X}^T A^H Y, \quad (\alpha, A^*\beta) = \bar{X}^T B Y $$
故 $A^*$是共轭变换$\iff \bar{X}^T A^H Y = \bar{X}^T B Y$对所有$X, Y$ $\iff B = A^H$。 $\square$
老师讲解:这个证明的核心思想是”矩阵由它作用在所有向量上的效果唯一确定”。$\bar{X}^T M Y = 0$对所有$X, Y$ $\iff M = 0$。这是线性代数中反复使用的技巧。
定义:若 $A A^* = A^* A$,则 $A$ 是正规变换。
对应地,$A A^H = A^H A$ 的矩阵称为正规矩阵。
老师讲解:为什么叫”正规”(normal)?因为它是”最一般的好行为矩阵”。酉矩阵、Hermite 矩阵、反 Hermite 矩阵、甚至实对称矩阵,全都是正规矩阵的特例。正规矩阵是这些”好矩阵”的统一推广。
验证:
酉矩阵 $U$:$U U^H = U U^{-1} = I = U^{-1} U = U^H U$ ✓
Hermite 矩阵 $A$:$A A^H = A^2 = A^H A$ ✓
反 Hermite 矩阵 $A$:$A A^H = A(-A) = -A^2 = (-A)A = A^H A$ ✓
定理:$A$是正规矩阵$\iff$存在酉矩阵$U$和复对角矩阵$D$,使得:
$$ A = U D U^H = U D U^{-1} $$
老师点评:这是本章最重要的定理,没有之一。它告诉我们:任何正规矩阵都可以用酉相似变换对角化。对比实对称矩阵的正交对角化 $A = Q D Q^T$,这里只是把 $Q$换成$U$,$Q^T$换成$U^H$。但这个推广的威力巨大——它涵盖了酉矩阵、Hermite 矩阵、以及所有它们的组合。
证明(数学归纳法):
基础:$1 \times 1$ 矩阵显然成立。
归纳步骤:假设对 $< n$级正规矩阵成立。设$A$是$n$ 级正规矩阵。
第一步:$\mathbb{C}$上任何矩阵都有特征值(代数闭域),设$\lambda_1$是$A$ 的一个特征值,$\alpha_1$ 是对应的单位特征向量:$A\alpha_1 = \lambda_1 \alpha_1$,$||\alpha_1|| = 1$。
第二步:将 $\alpha_1$扩充为$\mathbb{C}^n$的一组基,用 Schmidt 正交化+单位化,得到标准正交基$\alpha_1, \dots, \alpha_n$。排成酉矩阵 $U_1 = [\alpha_1 \ \alpha_2 \ \cdots \ \alpha_n]$。
第三步:计算 $U_1^H A U_1$。由于 $A\alpha_1 = \lambda_1 \alpha_1$,第一列是 $(\lambda_1, 0, \dots, 0)^T$:
$$ U_1^H A U_1 = \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} $$
其中 $C$是$1 \times (n-1)$ 行向量,$B$是$(n-1) \times (n-1)$ 矩阵。
第四步(关键):取共轭转置:
$$ U_1^H A^H U_1 = \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} $$
由 $A$ 正规($A A^H = A^H A$),两边同时做 $U_1^H (\cdot) U_1$ 相似变换,正规性保持:
$$ \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} = \begin{bmatrix} \bar{\lambda}_1 & 0 \\ \bar{C}^T & \bar{B}^T \end{bmatrix} \begin{bmatrix} \lambda_1 & C \\ 0 & B \end{bmatrix} $$
比较左上角元素:
$$ \lambda_1 \bar{\lambda}_1 + C \bar{C}^T = \lambda_1 \bar{\lambda}_1 \Rightarrow C \bar{C}^T = 0 $$
而 $C \bar{C}^T = |c_2|^2 + \cdots + |c_n|^2 = 0 \Rightarrow C = 0$。
老师讲解:这是证明的灵魂步骤。为什么 $C$必须是 0?因为$A$的正规性强制了这一点。如果$A$ 不是正规的,$C$ 一般不为 0,我们就得不到分块对角形式,归纳法就走不下去了。这就是为什么只有正规矩阵才能酉对角化。
第五步:现在 $U_1^H A U_1 = \mathrm{diag}(\lambda_1, B)$,且 $B$也正规(由$A A^H = A^H A$推出$B B^H = B^H B$)。对 $B$ 应用归纳假设,$B = U_1’ D_1 (U_1’)^H$。
第六步:令 $U = U_1 \cdot \mathrm{diag}(1, U_1’)$,则 $U$是酉矩阵(酉矩阵的块对角仍是酉的),且$A = U D U^H$。 $\square$
推论 1:$A$正规$\iff A = U D U^H$($U$ 酉,$D$ 复对角)
推论 2:$A$酉$\iff A = U D U^H$,且 $D$ 的对角元模为 1
推论 3:$A$Hermite$\iff A = U D U^H$,且 $D$ 是实对角矩阵
推论 4:$A$反 Hermite$\iff A = U D U^H$,且 $D$ 的对角元是纯虚数
老师讲解:这四个推论是”一把钥匙开四把锁”。同一个谱分解框架,通过限制对角元的性质,就区分了四类重要矩阵。考试和科研中,遇到这四类矩阵中的任何一类,第一反应应该是”它可以酉对角化”。
推论:设 $A$是正规变换。若$W$是$A$-不变子空间,则 $W^\perp$也是$A$-不变子空间。
证明:取标准正交基使 $W = \langle \beta_1, \dots, \beta_k \rangle$。$A$的矩阵为$\begin{bmatrix} B & C \ 0 & D \end{bmatrix}$($W$不变$\Rightarrow$左下为 0)。$A^*$的矩阵为$\begin{bmatrix} B^H & 0 \ C^H & D^H \end{bmatrix}$。
由 $A A^H = A^H A$,比较得 $C C^H = 0$。取迹:$\mathrm{tr}(C C^H) = \sum |c_{ij}|^2 = 0 \Rightarrow C = 0$。
故 $A$ 的矩阵是分块对角的,$W^\perp$也是不变子空间。$\square$
老师点评:这个结论在实对称矩阵中也有对应(对称变换的不变子空间的正交补仍是不变子空间),但在一般矩阵中不成立。正规性是保证这一点的最弱条件。这个性质在同时对角化理论和谱定理的证明中反复使用。
设 $K$是特征$\neq 2$ 的域,$V$是$K$-线性空间,配非退化双线性函数 $f$。
$f$对称$\Rightarrow$ $(V, f)$ 是正交空间
$f$ 反对称($f(\alpha, \alpha) = 0$)$\Rightarrow$ $(V, f)$ 是辛空间
老师讲解:到这里,我们跳出了”内积必须正定”的限制。正交空间和辛空间中的”内积”不一定正定,甚至可能不定(有正有负)。这引出了更丰富的几何结构。
在 $\mathbb{R}^4$ 中定义 Minkowski 内积:
$$ (\alpha, \beta) = x_1 y_1 + x_2 y_2 + x_3 y_3 - x_4 y_4 $$
这就是狭义相对论中的时空内积!注意符号是 $(+,+,+,-)$,不是 $(+,+,+,+)$。时间维度的符号是负的。
保持该内积的线性变换称为洛伦兹变换:$(A\alpha, A\beta) = (\alpha, \beta)$。
老师点评:Minkowski 空间是正交空间但不是欧氏空间(内积不定)。它的等距群(洛伦兹群)是 $O(3,1)$,不是 $O(4)$。这是物理学中正交空间最经典的例子。
定理:设 $V$ 是有限维正交(辛)空间,$V’, V’’$是同构子空间(存在保内积的同构$\sigma: V’ \to V’’$),则 $\sigma$可扩充为$V$ 上的正交变换。
老师讲解:Witt 定理说的是:子空间上的等距映射可以”扩展”到整个空间。这在分类理论中是基础工具——它保证了正交(辛)空间的分类只依赖于一些不变量(如符号差),而不依赖于具体的基的选取。
设 $\alpha_1, \dots, \alpha_r$是子空间$W \subset \mathbb{R}^n$ 的标准正交基。$R^n$向$W$的正交投影$P$ 的矩阵为:
$$ P = \sum_{i=1}^r \alpha_i \alpha_i^T = A A^T $$
其中 $A = [\alpha_1 \ \cdots \ \alpha_r]$。
推导:对任意 $\alpha_j$,$P\alpha_j = \sum_i (\alpha_i, \alpha_j) \alpha_i = \sum_i \alpha_i (\alpha_i^T \alpha_j) = (\sum_i \alpha_i \alpha_i^T) \alpha_j$。由于 $P$在基向量上的效果确定了$P$ 的矩阵,得证。
设 $\alpha_1, \dots, \alpha_r$是$W$ 的一般基(不必正交),$A = [\alpha_1 \ \cdots \ \alpha_r]$ 列满秩。则:
$$ P = A(A^T A)^{-1} A^T $$
老师讲解:这个公式是最小二乘法的核心。在统计学和机器学习中,线性回归 $\hat{y} = X\beta$的正规方程解$\hat{\beta} = (X^T X)^{-1} X^T y$,本质上就是投影公式。$X(X^T X)^{-1} X^T$就是设计矩阵$X$ 的列空间上的投影矩阵(hat matrix)。
$A$列满秩$\Rightarrow X \mapsto A(A^T A)^{-1} A^T X$是到$\mathrm{Im}, A$ 的正交投影
$A^T A = I \Rightarrow X \mapsto A A^T X$是到$\mathrm{Im}, A$ 的正交投影
$A^2 = A \Rightarrow V = \mathrm{Im}, A \oplus \mathrm{Ker}, A$,$X \mapsto AX$是沿$\mathrm{Ker}, A$向$\mathrm{Im}, A$ 的投影
$A$实对称且$A^2 = A \Rightarrow X \mapsto AX$是到$\mathrm{Im}, A$ 的正交投影
老师点评:条件 4 是关键——幂等($A^2 = A$)保证是投影,对称($A^T = A$)保证是正交投影。两者缺一不可。
$W^\perp = (\mathrm{Im}, A)^\perp = \mathrm{Ker}(A^T)$。所以求 $W^\perp$的基等价于解$A^T X = 0$。
例:$W = \langle (1,1,2,1)^T, (1,0,0,-2)^T \rangle \subset \mathbb{R}^4$。解 $\begin{bmatrix} 1 & 1 & 2 & 1 \ 1 & 0 & 0 & -2 \end{bmatrix} X = 0$,得基础解系即为 $W^\perp$ 的基。
元素全为正数的矩阵叫正矩阵,元素 $\geq 0$ 的叫非负矩阵。这类矩阵在马尔可夫链、PageRank 算法、人口模型、经济学投入产出分析中无处不在。
对于正方阵 $A$:
$A$有正特征值$\lambda$(最大正特征值),代数重数为 1,且有正特征向量
其余特征值的模都 $< \lambda$3.$A$与$A^T$有相同的最大正特征值$\lambda$称为$A$ 的 Frobenius 根(谱半径)。
对非负方阵,结论类似但特征向量只是非负(不一定严格正)。
老师点评:Perron-Frobenius 定理是 Google 的 PageRank 算法的理论基础。Web 链接矩阵是非负矩阵,PageRank 向量就是它的 Frobenius 根对应的特征向量。没有这个定理,我们就无法保证 PageRank 的存在性和唯一性。此外,在 ergodic 马尔可夫链中,平稳分布也是由这个定理保证的。
实矩阵 $B$ 的欧氏诱导范数:
$$ ||B|| := \max_{||X||=1} ||BX|| = \sqrt{\lambda_1(B^T B)} = \sigma_1(B) $$
即最大奇异值。
若 $A$ 实对称,$||A|| = \max_i |\lambda_i(A)|$(最大特征值的绝对值)。
$||A|| > 0$($A \neq 0$)
$||kA|| = |k| \cdot ||A||$
三角不等式:$||A+B|| \leq ||A|| + ||B||$
次乘性:$||AB|| \leq ||A|| \cdot ||B||$5.$||A^T|| = ||A||$
对实对称 $A$,$\lambda_n ||X||^2 \leq X^T A X \leq \lambda_1 ||X||^2$。
等号成立 $\iff$ $X$ 在对应特征子空间内。
老师讲解:这个不等式是理解对称矩阵特征值几何意义的核心。$X^T A X$ 的值被最大和最小特征值”夹”在中间。这在优化理论中是 Rayleigh 商的基础。
例:$A = [\frac{1}{i+j-1}]_{n \times n}$的特征值都$> 0$且$\leq 3 + 2\sqrt{2}$。
解:记 $B$ 为全 1 下三角矩阵,$D = I$。则 $A = B^T B = B + B^T - D$。
$B$可逆$\Rightarrow A$正定$\Rightarrow$特征值$> 0$。
$$ ||A|| \leq ||B|| + ||B^T|| + ||D|| = 2||B|| + 1 = 2\sqrt{\lambda_1(B^T B)} + 1 $$
由 $\lambda_1 \leq (2\sqrt{\lambda_1} + 1)^2$,解得 $\sqrt{\lambda_1} \leq 1 + \sqrt{2}$,故 $\lambda_1 \leq 3 + 2\sqrt{2}$。
老师点评:Hilbert 矩阵是著名的病态矩阵——虽然正定,但条件数随 $n$ 指数增长。这个例子展示了用范数不等式估计特征值上界的标准技巧:分解矩阵、分别估计、合并。
对任意复矩阵 $A$,存在唯一矩阵 $X$ 满足:
$$ AXA = A, \quad XAX = X, \quad (AX)^H = AX, \quad (XA)^H = XA $$
$X$记为$A^+$,称为 Penrose 广义逆。
若 $A$ 列满秩,$A^+ = (A^T A)^{-1} A^T$(这就是最小二乘解的公式!)。
若 $A = P S Q^H$(奇异值分解),则:
$$ A^+ = Q \cdot \mathrm{diag}(\sigma_1^{-1}, \dots, \sigma_r^{-1}, 0, \dots, 0) \cdot P^H $$
老师讲解:SVD 是线性代数中最强大的分解工具。特征值分解只对可逆/正规矩阵有效,但 SVD 对任何矩阵都成立。SVD 的应用包括:数据压缩(PCA)、图像去噪、推荐系统(矩阵补全)、求解超定/欠定方程组。$A^+$ 通过 SVD 构造,把非零奇异值求倒数、零奇异值保持为零,这是最自然的”广义逆”定义。
[U, D] = eig(A):特征值分解
[P, S, Q] = svd(A):奇异值分解
[Q, R] = qr(B):QR 分解
rref(B):行最简形
注意:Jordan 标准型数值不稳定,计算前需用
sym转为符号矩阵。这是因为 Jordan 块对矩阵元素的小扰动极其敏感——任意矩阵都可以被任意接近的、可对角化的矩阵逼近,所以数值计算中 Jordan 块会”散开”。
定理:$n$级实对称矩阵$A$的特征值$\lambda_1 \geq \cdots \geq \lambda_n$。$A$的$n-1$级主子阵$B$的特征值$\mu_1 \geq \cdots \geq \mu_{n-1}$。则:
$$ \lambda_1 \geq \mu_1 \geq \lambda_2 \geq \mu_2 \geq \cdots \geq \mu_{n-1} \geq \lambda_n $$
老师讲解:”Interlacing”就是”交错”——主子阵的特征值”穿插”在原矩阵特征值之间。这个定理在图论(图的子图特征值)、随机矩阵理论、数值线性代数中都有重要应用。
$A, B$实对称,特征值$\lambda_1 \geq \cdots \geq \lambda_n$和$\mu_1 \geq \cdots \geq \mu_n$。$A+B$的特征值$\tau_k$ 满足:
$$ \lambda_k + \mu_1 \geq \tau_k \geq \lambda_k + \mu_n $$
老师点评:Weyl 定理描述了”扰动的特征值如何移动”。如果 $B$ 是小扰动,$\tau_k$不会偏离$\lambda_k$太多——最多偏离$\mu_1 - \mu_n$($B$ 的谱宽)。这是数值分析中特征值稳定性的理论基础。
定理:实对称 $A$的特征值$\lambda_1 \geq \cdots \geq \lambda_n$,对应正交单位特征向量 $\alpha_1, \dots, \alpha_n$。则:
$$ \lambda_k = \min_{\substack{V \subseteq \mathbb{R}^n \\ \dim V = n-k+1}} \max_{0 \neq \alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} $$
老师点评:这是研究级的工具。它给出了特征值的变分刻画——$\lambda_k$不是某个特定向量的 Rayleigh 商,而是所有$n-k+1$ 维子空间上 Rayleigh 商最大值的最小值。这个定理是有限元方法、谱图理论、量子力学变分原理的共同基础。
证明思路:记 $U = \langle \alpha_1, \dots, \alpha_k \rangle$。对任意 $n-k+1$维子空间$V$:
$$ \dim V + \dim U = n+1 > n = \dim(V + U) $$
由维数公式,$\dim(V \cap U) \geq 1$。取 $0 \neq \gamma \in V \cap U$,则 $\gamma \in U \Rightarrow \frac{\gamma^T A \gamma}{\gamma^T \gamma} \geq \lambda_k$(因为 $U$中向量的 Rayleigh 商$\geq \lambda_k$)。
故 $\max_{\alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} \geq \frac{\gamma^T A \gamma}{\gamma^T \gamma} \geq \lambda_k$。 $\square$
老师讲解:证明的核心是维数论证——两个”够大”的子空间一定有非零交集。这是线性代数中最优美的论证技巧之一,在泛函分析和代数拓扑中也反复出现。
定理:若 $A, B$ 实对称,$A - B$半正定,则$\lambda_k(A) \geq \lambda_k(B)$。
证明:$A-B$半正定$\Rightarrow \alpha^T A \alpha \geq \alpha^T B \alpha$。由 Min-Max:
$$ \lambda_k(A) = \min_{\dim V=n-k+1} \max_{\alpha \in V} \frac{\alpha^T A \alpha}{\alpha^T \alpha} \geq \min_{\dim V=n-k+1} \max_{\alpha \in V} \frac{\alpha^T B \alpha}{\alpha^T \alpha} = \lambda_k(B) $$
$\square$### 16.5 Cauchy Interlacing 的推广证明$A + t\alpha\alpha^T$($t \geq 0$,$||\alpha|| = 1$)的特征值 $\mu_k$ 满足:
$$ \lambda_1 + t \geq \mu_1 \geq \lambda_1 \geq \mu_2 \geq \lambda_2 \geq \cdots \geq \mu_n \geq \lambda_n $$
证明:$t\alpha\alpha^T$半正定$\Rightarrow \mu_k \geq \lambda_k$(上题)。又:
$$ \mu_1 = \max_{||\beta||=1} \beta^T(A + t\alpha\alpha^T)\beta \leq \lambda_1 + t $$
对 $\mu_{k+1}$,在 $\alpha^\perp$($n-1$维)中取$n-k$维子空间,由 Min-Max 得$\lambda_k \geq \mu_{k+1}$。 $\square$
设 $\alpha = (a_1, a_2, a_3)^T$ 是单位向量(旋转轴),$\theta$是旋转角。求绕$\alpha$旋转$\theta$的矩阵$A$。
将任意 $\beta \in \mathbb{R}^3$ 分解:
$$ \beta = \beta_1 + \beta_2, \quad \beta_1 = (\beta, \alpha)\alpha \in \langle\alpha\rangle, \quad \beta_2 = \beta - (\beta, \alpha)\alpha \in \langle\alpha\rangle^\perp $$
记 $\gamma = \alpha \times \beta_2 = \alpha \times \beta$。则 $\alpha, \beta_2, \gamma$ 构成右手系,$||\gamma|| = ||\beta_2||$。
旋转后:
$$ A\beta = \beta_1 + \cos\theta \cdot \beta_2 + \sin\theta \cdot \gamma $$
定义叉积矩阵 $C = \begin{bmatrix} 0 & a_3 & -a_2 \ -a_3 & 0 & a_1 \ a_2 & -a_1 & 0 \end{bmatrix}$,满足 $\beta \times \alpha = C\beta$。
代入并整理:
$$ \begin{aligned}
A\beta &= (\beta, \alpha)\alpha + \cos\theta(\beta - (\beta,\alpha)\alpha) + \sin\theta \cdot \alpha \times \beta \
&= \cos\theta \cdot \beta + (1-\cos\theta)(\alpha\alpha^T)\beta - \sin\theta \cdot C\beta \
&= (\cos\theta \cdot I + (1-\cos\theta)\alpha\alpha^T - \sin\theta \cdot C)\beta
\end{aligned}
$$
利用 $\alpha\alpha^T - I = C^2$(可验证),最终得到 Rodrigues 公式:
$$ A = I - \sin\theta \cdot C + (1 - \cos\theta) C^2 $$
老师讲解:Rodrigues 公式在计算机图形学、机器人学、航空航天中是基础工具。任何 3D 旋转都可以用”轴+角”表示,Rodrigues 公式给出了从轴角到矩阵的显式转换。
更简洁地:$A = e^{\theta C}$。
为什么? 因为 $C$是反对称矩阵且$||\alpha|| = 1$,有 $C^3 = -C$,$C^4 = -C^2$,$C^5 = C$,……循环周期为 4。展开 $e^{\theta C}$ 的幂级数:
$$ e^{\theta C} = I + \theta C + \frac{\theta^2}{2!} C^2 + \frac{\theta^3}{3!} C^3 + \cdots $$
利用 $C^3 = -C$,$C^4 = -C^2$等,奇次项合并为$\sin\theta \cdot C$,偶次项合并为 $(1-\cos\theta)C^2$,正好得到 Rodrigues 公式。
老师点评:$e^{\theta C}$这个记号不是形式上的——矩阵指数$e^A = \sum \frac{A^k}{k!}$对任何矩阵都收敛。若$A = UJU^{-1}$(Jordan 分解),则 $e^A = U e^J U^{-1}$。这在微分方程理论中是核心工具:$\dot{x} = Ax$的解是$x(t) = e^{At} x(0)$。
由 $A = I - \sin\theta \cdot C + (1-\cos\theta)C^2$:
$I + (1-\cos\theta)C^2$ 是对称的
$-\sin\theta \cdot C$ 是反对称的
故 $A^T - A = 2\sin\theta \cdot C$。由此可读出:
设 $\mathcal{A}$是$\mathbb{R}^3$ 上的保距变换($||\mathcal{A}\alpha - \mathcal{A}\beta|| = ||\alpha - \beta||$)且保持定向。证明:存在直线 $\mathcal{L}$,使得 $\mathcal{A}$是以$\mathcal{L}$为轴的旋转与沿$\mathcal{L}$ 方向的平移的复合。
提示:这是 Chasles 定理。先证 $\mathcal{A}$ 的线性部分是第一类正交矩阵(有实特征值 1,对应旋转轴),再分析平移分量。
证明:$n$维欧氏空间中,两两夹角都是钝角的非零向量至多$n+1$ 个。
提示:考虑把这些向量”提升”到 $\mathbb{R}^{n+1}$ 中,利用线性无关性论证。
设 $A = [a_{ij}], B = [b_{ij}]$是$n$阶半正定矩阵。证明$C = [a_{ij} b_{ij}]$ 也半正定。
解:$A$半正定$\Rightarrow A = \sum_{k=1}^n \lambda_k \alpha_k \alpha_k^T$($\lambda_k \geq 0$)。故 $a_{ij} = \sum_k \lambda_k p_{ik} p_{jk}$,其中 $p_{ik}$是正交矩阵$P$ 的元素。
$$ X^T C X = \sum_{i,j} a_{ij} b_{ij} x_i x_j = \sum_{i,j} \left(\sum_k \lambda_k p_{ik} p_{jk}\right) b_{ij} x_i x_j = \sum_k \lambda_k \left(\sum_{i,j} b_{ij} (p_{ik} x_i)(p_{jk} x_j)\right) $$
对每个固定的 $k$,令 $y_i = p_{ik} x_i$,则 $\sum_{i,j} b_{ij} y_i y_j = Y^T B Y \geq 0$($B$半正定)。故$X^T C X \geq 0$。 $\square$> 老师点评:这个定理叫 Schur product theorem。证明的精髓是用谱分解把$a_{ij}$”拆开”,然后交换求和顺序,发现内层恰好是$B$ 的二次型。这是处理 Hadamard 乘积的标准技巧。
设 $U, V$是$\mathbb{R}^n$ 的子空间,$\beta \in \mathbb{R}^n$。证明:
$$ \mathrm{dis}(\beta + U, V) = \mathrm{dis}(\beta, U + V) $$
提示:$||(\beta - \alpha) - \gamma|| = ||\beta - (\alpha + \gamma)||$,$\forall \alpha \in U, \gamma \in V$。两边取最小值即得。
设 $\mathcal{A}$是酉空间$V$ 上的正规变换,$\lambda_1, \dots, \lambda_s$是互异特征值。记$\mathcal{P}i = h_i(\mathcal{A})$,其中 $h_i(x) = \prod{j \neq i} \frac{x - \lambda_j}{\lambda_i - \lambda_j}$。
证明:
$\mathcal{P}_i$是向$\mathrm{Ker}(\mathcal{A} - \lambda_i I)$ 的正交投影
$g(\mathcal{A}) = \sum_i g(\lambda_i) \mathcal{P}_i$(对任意幂级数 $g$)
存在多项式 $f$使$f(\mathcal{A}) = \mathcal{A}^*$
提示:$h_i(x)$ 是 Lagrange 插值多项式。$\mathcal{P}i$的特征值是$\delta{ij}$(在 $\lambda_j$处取值)。正规性保证不同特征值的特征子空间正交,所以$\mathcal{P}_i$ 是正交投影。
复向量的长度问题
↓
共轭双线性函数 → 度量矩阵 → 基变换公式 P^T A P̄
↓
加上共轭对称 + 正定 → Hermite 内积 ↔ Hermite 正定矩阵
↓
Cholesky 分解 A = P^T P̄
↓
酉空间 = 配 Hermite 内积的复线性空间
├── Cauchy-Schwarz → 三角不等式 → 夹角 → 标准正交基
├── 酉矩阵 (U^H U = I) → 酉群 U(n), SU(n)
├── Fourier 矩阵 → FFT (O(n²) → O(n log n))
├── 酉变换(保内积)↔ 酉矩阵
├── Hermite 变换(自伴随)↔ Hermite 矩阵
├── 共轭变换 A* ↔ A^H
└── ★正规变换 (AA* = A*A) → 酉对角化 A = UDU^H
├── 推论:酉/Hermite/反Hermite 的谱分解
└── 推论:不变子空间的正交补仍不变
延伸:
├── 正交空间 / 辛空间(不定度量)→ Minkowski 空间 → Witt 定理
├── 正交投影 → 最小二乘法
├── Perron-Frobenius → 非负矩阵的谱理论
├── 矩阵范数 → 特征值估计
├── SVD → Penrose 广义逆
├── Courant-Fischer Min-Max → 特征值变分刻画
└── Rodrigues 公式 → 三维旋转的矩阵指数表示
最后的忠告:这一章的内容是后续学习数值线性代数、量子力学、信号处理、机器学习的共同基础。正规矩阵的酉对角化、SVD、Courant-Fischer 定理,这三个工具在你未来的学习和研究中会反复出现。务必做到:看到 Hermite 矩阵就想到”特征值是实数、可酉对角化”;看到酉矩阵就想到”特征值在单位圆上、保持内积”;看到正定矩阵就想到”Cholesky 分解、所有顺序主子式 > 0”。