从非标准内积到图像的参数权重
在实线性空间 $V$ 上,一个满足正定性($\forall \alpha \neq 0, f(\alpha, \alpha) > 0$)与对称性的双线性函数 $f$被定义为内积。这意味着$f$是内积,等价于二次型$f(\alpha, \alpha)$正定,也等价于$f$ 的度量矩阵是正定矩阵。
若我们在空间中选定一组基 $\alpha_1, \dots, \alpha_n$,任意向量 $\alpha$在该基下的坐标记为列向量$X$。利用双线性性质,内积的计算可以完全由基向量两两之间的内积决定:
$$ f(\alpha, \alpha) = \sum_{i=1}^n \sum_{j=1}^n x_i x_j f(\alpha_i, \alpha_j) = X^T \begin{bmatrix} f(\alpha_1, \alpha_1) & \cdots & f(\alpha_1, \alpha_n) \\ \vdots & \ddots & \vdots \\ f(\alpha_n, \alpha_1) & \cdots & f(\alpha_n, \alpha_n) \end{bmatrix} X $$
这个夹在中间的对称正定矩阵,便是 $f$ 在该基下的度量矩阵(Metric Matrix)。
动机:为什么我们需要非标准内积?
传统的标准内积(如点积)平等地对待空间的每一个维度。但在现实世界(如JPEG图像压缩算法)中,数据不同的分量所包含的视觉重要性是不同的。我们需要通过非标准内积来调节特定参数的权重。在图像中,人类视觉系统对低频信息(如大面积的颜色渐变)比高频信息(如细腻的纹理细节)更为敏感。度量矩阵的存在,允许我们在数学上赋予低频和高频不同的“尺子”去度量它们。
图像空间的基底解构与余弦变换

在具体的图像处理中,每次截取一个 $8 \times 8$的子阵(如一幅战斗机图像中的局部灰度块),这个子阵可以看作是$8 \times 8$实矩阵空间$M_{8,8}(\mathbb{R})$中的一个向量$X$。
既然 $X$是一个向量,我们自然希望找到一组优雅的基底来表示它。若$\alpha_0, \alpha_1, \dots, \alpha_7$是某种一维变换的一组基,那么通过外积构造的$64$个矩阵${\alpha_i \alpha_j^T} ; (0 \le i, j \le 7)$恰好构成了二维矩阵空间$M_{8,8}(\mathbb{R})$ 的一组基底。
为了让基底具备良好的几何性质(不改变能量总和,且便于解耦),我们引入正交矩阵(Orthogonal Matrix) $C$。这里采用的是离散余弦变换(DCT)的正交矩阵:
$$ C = \begin{bmatrix} \alpha_0 & \alpha_1 & \cdots & \alpha_7 \end{bmatrix} \in M_8(\mathbb{R}) $$
其列向量按由低频到高频的顺序排列:
$$ C = \frac{1}{2} \begin{bmatrix}
\frac{1}{\sqrt{2}} & \cos\frac{\pi}{16} & \cos\frac{2\pi}{16} & \cdots & \cos\frac{7\pi}{16} \
\frac{1}{\sqrt{2}} & \cos\frac{3\pi}{16} & \cos\frac{6\pi}{16} & \cdots & \cos\frac{7 \times 3\pi}{16} \
\vdots & \vdots & \vdots & \ddots & \vdots \
\frac{1}{\sqrt{2}} & \cos\frac{15\pi}{16} & \cos\frac{30\pi}{16} & \cdots & \cos\frac{7 \times 15\pi}{16}
\end{bmatrix}
$$
系数矩阵的完整推导:从分块乘法到双侧投影
现在面临的核心问题是:如何计算图像 $X$在基底${\alpha_i \alpha_j^T}$下线性表出的系数$b_{ij}$?
我们已知:
$$ X = \sum_{0 \le i, j \le 7} b_{ij} \alpha_i \alpha_j^T $$
动机:直接对 64 个基矩阵列方程组求导极其繁琐。 我们需要利用分块乘法(Block Multiplication)和矩阵的整体结构将求和号($\Sigma$)打包。
推导过程:
注意到系数 $b_{ij}$可以排成一个$8 \times 8$的矩阵$B = [b_{ij}]$。我们将上式改写为矩阵乘法形式。
由于 $\alpha_i$是正交矩阵$C$的第$i$个列向量,如果我们考察矩阵乘积$C B C^T$,利用分块乘法的展开:
$$ C B C^T = \begin{bmatrix} \alpha_0 & \alpha_1 & \cdots & \alpha_7 \end{bmatrix}
\begin{bmatrix}
b_{00} & b_{01} & \cdots & b_{07} \
b_{10} & b_{11} & \cdots & b_{17} \
\vdots & \vdots & \ddots & \vdots \
b_{70} & b_{71} & \cdots & b_{77}
\end{bmatrix}
\begin{bmatrix} \alpha_0^T \ \alpha_1^T \ \vdots \ \alpha_7^T \end{bmatrix}
$$
根据矩阵乘法的行列向量展开法则,中间的系数矩阵 $B$ 实际上在对两边的基向量进行线性组合,展开后恰好等于:
$$ \sum_{i=0}^7 \sum_{j=0}^7 b_{ij} \alpha_i \alpha_j^T $$
这正是我们的原始图像 $X$。因此,我们得到了极其优美的等式:
$$ X = C B C^T $$
为了解出系数矩阵 $B$,由于 $C$是正交矩阵,满足$C^T C = C C^T = I$(即 $C^{-1} = C^T$)。我们在等式两边左乘 $C^T$,右乘 $C$:
$$ C^T X C = C^T (C B C^T) C = (C^T C) B (C^T C) = I B I = B $$
由此,成功表出系数矩阵:
$$ \mathbf{B = [b_{ij}] = C^T X C} $$
而在解压(重构图像)时,只需通过反解公式即可恢复图像:
$$ \mathbf{X = C B C^T} $$
量化:非标准内积思想的现实落地
得到系数矩阵 $B$ 后,图像压缩的最关键步骤是量化(Quantization)。这一步是为了丢弃人类视觉不易察觉的高频信息。
具体而言,让表出系数 $b_{ij}$乘以相应的权重$1/q_{ij}$(即除以 $q_{ij}$)后取整,排成量化后的矩阵 $D$:
$$ D = [d_{ij}]_{0 \le i, j \le 7}, \quad \mathbf{d_{ij} = \text{round}(b_{ij} / q_{ij})} $$
这里的 $Q_{50} = [q_{ij}]$ 是由专家统一规范的量化矩阵(例如标准 JPEG 量化表):
$$ Q_{50} = \begin{bmatrix}
16 & 11 & 10 & \cdots & 61 \
12 & 12 & 14 & \cdots & 55 \
14 & 13 & 16 & \cdots & 56 \
\vdots & \vdots & \vdots & \ddots & \vdots \
72 & 92 & 95 & \cdots & 99
\end{bmatrix}
$$
动机与机制评估:
优势(左上角低频区):$q_{ij}$ 较小。这意味着除数小,保留的步长细腻,保留的信息多。因为左上角对应的是图像的直流分量和大轮廓,对视觉效果决定性最高。
劣势/风险(右下角高频区):$q_{ij}$较大。除数很大,导致许多微小的高频系数$b_{ij}$ 经除法并取整后直接变成了 $0$。这虽然导致精度变低、丢失了边缘细节,但由于人类眼睛对高频不敏感,这种局部的“模糊”换来了海量数据空间的释放。
这种非对称的量化矩阵 $Q$,本质上就是前文提到的非标准内积在离散空间中的投影机制——通过人为定义空间各个维度的重要性(度量矩阵),实现对特定参数权重的精准调节。
Euclid空间
欧氏空间:赋予线性空间“度量”
在纯粹的线性空间中,我们只能谈论向量的“加法”和“数乘”,那里没有长短,没有远近,也没有夹角。为了让空间具备几何直观,我们必须引入内积。
具有内积 $(\alpha, \beta)$ 的(有限维)实线性空间被称为欧氏空间(Euclidean space)。有了内积,欧氏空间上便自然生长出了向量长度(模)、夹角、距离、正交等一系列度量(Metric)的概念。
1. 向量的长短(范数)
若 $\alpha = [\alpha_1, \alpha_2, \dots, \alpha_n] X \in V$,即 $X$是$\alpha$在某组基下的坐标。我们定义$\alpha$ 的长度(或称欧氏范数)为:
$$ \|\alpha\| := \sqrt{(\alpha, \alpha)} = \sqrt{X^T A X} $$
其中 $A$是该组基下的度量矩阵。有了长度,任意两点$\alpha, \beta$ 终点间的欧氏距离便能自然地定义为两点差向量的长度:
$$ \text{Distance}(\alpha, \beta) := \|\alpha - \beta\| $$
核心不等式的构建与完整推导
在欧氏空间中,一切几何直观(如“两点之间线段最短”、“阴影长度小于原长”)的数学基石,都源于两个至关重要的大定理:柯西-施瓦茨不等式与三角不等式。
1. 柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)
定理内容:$|\alpha| |\beta| \ge |(\alpha, \beta)|$
动机:我们直观上知道,两向量的内积等于长度相乘再乘以夹角的余弦值($\cos\theta$)。因为 $|\cos\theta| \le 1$,所以内积绝对值必然小于等于长度之积。但这是三维空间的结论,在抽象的欧氏空间中,我们甚至还没有定义“夹角”,因此必须完全脱离几何直观,纯粹从内积的正定性出发进行严密推导。
完整推导过程:
考虑引入一个任意实数 $t$,构造一个构造性向量 $\alpha - t\beta$。根据内积的正定性,任何向量与自身的内积都必须大于等于 0:
$$ (\alpha - t\beta, \alpha - t\beta) \ge 0 $$
利用内积的双线性与对称性,将上式展开:
$$ (\alpha, \alpha) - 2t(\alpha, \beta) + t^2(\beta, \beta) \ge 0 $$
这是一个关于 $t$的一元二次不等式$A t^2 + B t + C \ge 0$,它对任意实数 $t$ 都成立。
为了让不等式暴露出我们想要的结构,我们可以取那个使该二次函数达到最小值的对称轴位置,即令 $t = \frac{(\alpha, \beta)}{(\beta, \beta)}$(假设 $\beta \neq 0$)。
将 $t$ 代入展开式中:
$$ (\alpha, \alpha) - 2\frac{(\alpha, \beta)^2}{(\beta, \beta)} + \frac{(\alpha, \beta)^2}{(\beta, \beta)^2}(\beta, \beta) \ge 0 $$
$$ (\alpha, \alpha) - \frac{(\alpha, \beta)^2}{(\beta, \beta)} \ge 0 $$
两边同乘 $(\beta, \beta)$ 并移项,立即得到:
$$ (\alpha, \alpha)(\beta, \beta) \ge (\alpha, \beta)^2 $$
两边开平方根,由于 $|\alpha| = \sqrt{(\alpha, \alpha)}$,最终导出:
$$ \|\alpha\| \|\beta\| \ge |(\alpha, \beta)| $$
等号成立条件:当且仅当判别式为 0,即存在某个 $t$使得$\alpha - t\beta = 0$,这意味着 $\alpha$与$\beta$ 共线(线性相关)。
2. 欧氏距离满足三角不等式(Triangle Inequality)
定理内容:
$$ \|\alpha\| + \|\beta\| \ge \|\alpha + \beta\| $$
动机:这在几何上对应“三角形两边之和大于第三边”。在数学上,它是验证一个度量能否被称为“距离”或“范数”的核心条件。我们需要利用前面刚刚证明的柯西-施瓦茨不等式来完成这个推导。
完整推导过程:
我们从和向量的模平方出发:
$$ \|\alpha + \beta\|^2 = (\alpha + \beta, \alpha + \beta) $$
利用内积的分配律展开:
$$ (\alpha + \beta, \alpha + \beta) = (\alpha, \alpha) + 2(\alpha, \beta) + (\beta, \beta) = \|\alpha\|^2 + 2(\alpha, \beta) + \|\beta\|^2 $$
此时,为了放大该式,我们隐去可能为负的内积 $(\alpha, \beta)$,代之以其余弦放大的上限。根据柯西-施瓦茨不等式,有 $(\alpha, \beta) \le |(\alpha, \beta)| \le |\alpha| |\beta|$。
将其代入上式进行不等式放大:
$$ \|\alpha\|^2 + 2(\alpha, \beta) + \|\beta\|^2 \le \|\alpha\|^2 + 2\|\alpha\| \|\beta\| + \|\beta\|^2 $$
注意到右边恰好是一个完全平方式:
$$ \|\alpha\|^2 + 2\|\alpha\| \|\beta\| + \|\beta\|^2 = (\|\alpha\| + \|\beta\|)^2 $$
综上,我们得到了:
$$ \|\alpha + \beta\|^2 \le (\|\alpha\| + \|\beta\|)^2 $$
两边同时开方,由于模长皆为正数,不等号方向不变:
$$ \|\alpha\| + \|\beta\| \ge \|\alpha + \beta\| $$
几何大厦的基石,至此在代数上完成了交汇。
空间的泛化:函数空间与矩阵空间中的体现
欧氏空间的伟大之处在于,只要定义了符合条件的内积,函数和矩阵也可以像常规向量一样拥有“长度”、“距离”与“三角不等式”。
示例 1:连续函数空间 $C[0,1]$在区间$[0,1]$ 上的连续函数空间中,若我们将内积定义为积分:
$$ (h, g) = \int_{0}^{1} h(x)g(x)dx $$
那么,柯西-施瓦茨不等式在此空间中表现为著名的积分形式的柯西不等式:
$$ \int_{0}^{1} h(x)^2dx \int_{0}^{1} g(x)^2dx \ge \left( \int_{0}^{1} h(x)g(x)dx \right)^2 $$
而其对应的三角不等式,则刻画了函数叠加后的能量边界:
$$ \sqrt{\int_{0}^{1} h(x)^2dx} + \sqrt{\int_{0}^{1} g(x)^2dx} \ge \sqrt{\int_{0}^{1} (h(x)+g(x))^2dx} $$
示例 2:实矩阵空间 $M_n(\mathbb{R})$对于$n$ 阶实矩阵,若我们将内积定义为迹(Trace)的乘积:
$$ (A, B) = \text{tr}(A^T B) $$
这被称为 Frobenius 内积。根据统一的欧氏空间定理,两矩阵必然满足:
$$ \text{tr}(A^T A) \text{tr}(B^T B) \ge \text{tr}(A^T B)^2 $$
且其矩阵范数(类似于矩阵的长度)同样严丝合缝地满足三角不等式:
$$ \sqrt{\text{tr}(A^T A)} + \sqrt{\text{tr}(B^T B)} \ge \sqrt{\text{tr}((A+B)^T (A+B))} $$
等号成立条件:当且仅当矩阵 $A$与$B$线性相关(即存在常数$k$使得$A = kB$)。
从最初的图像像素块 Z 字形打包,到抽象矩阵的迹,线性代数用统一的不等式结构,优雅地约束了多维世界中一切“长度”与“投影”的极限。
我们已经能够测量向量的“长短”与“远近”。现在,我们将进一步引入夹角与正交性。
通过这些工具,我们将在线性空间中复刻高中的“垂线段最短”定理,并在高维空间中建立起极为优美的几何结构——正交补(Orthogonal Complement)与正交投影(Orthogonal Projection)。
夹角与标准正交基:将几何直观代数化
在证明了柯西-施瓦茨不等式 $|\alpha||\beta| \ge |(\alpha, \beta)|$后,对于任意两个非零向量$\alpha, \beta$,其商式必然满足:
$$ -1 \le \frac{(\alpha, \beta)}{\|\alpha\|\|\beta\|} \le 1 $$
这在数学上赋予了我们定义向量夹角 $\theta$ 的合法性。我们定义:
$$ \cos\theta = \frac{(\alpha, \beta)}{\|\alpha\|\|\beta\|} \quad (\alpha \neq 0, \beta \neq 0) $$
利用代数变形,我们可以极其漂亮地写出:
$$ 2\cos\theta \|\alpha\|\|\beta\| = \|\alpha\|^2 + \|\beta\|^2 - \|\alpha - \beta\|^2 $$
特别地,当 $\theta = 90^\circ$ 时,$\cos\theta = 0$,此时我们称两个向量正交(Orthogonal),记作 $\alpha \perp \beta$,其代数充要条件即为内积为零:
$$ \alpha \perp \beta \iff (\alpha, \beta) = 0 $$
标准正交基(Orthonormal Basis)
由两两正交且长度均为 $1$(单位向量)的基底构成的基,称为欧氏空间的标准正交基。一组基 $\alpha_1, \dots, \alpha_n$是标准正交基,等价于它们两两之间的内积构成的度量矩阵恰好为单位矩阵$I$:
$$ \begin{bmatrix} (\alpha_1, \alpha_1) & (\alpha_1, \alpha_2) & \cdots & (\alpha_1, \alpha_n) \\ (\alpha_2, \alpha_1) & (\alpha_2, \alpha_2) & \cdots & (\alpha_2, \alpha_n) \\ \vdots & \vdots & \ddots & \vdots \\ (\alpha_n, \alpha_1) & \alpha_n, \alpha_2) & \cdots & (\alpha_n, \alpha_n) \end{bmatrix} = I $$
命题变形与基变换:
设 $\alpha_1, \dots, \alpha_n$ 是欧氏空间的一组标准正交基,$P$是$n$阶实可逆矩阵。令新基底与旧基底满足过渡关系$(\beta_1 \cdots \beta_n) = (\alpha_1 \cdots \alpha_n)P$。
那么,$\beta_1, \dots, \beta_n$也是标准正交基的充要条件是$P$为正交矩阵(即$P^T P = I$)。
- 证明动机:新基底下的内积度量矩阵可以通过过渡矩阵进行合同变换。由于旧基底是标准正交基(度量矩阵为 $I$),新基底下的度量矩阵直接表示为 $P^T I P = P^T P$。要让新基底也是标准正交基,其度量矩阵必须也为 $I$,故 $P^T P = I$。
正交变换
正交补:子空间的完美对称
当我们从单个向量的正交扩展到整个子空间时,便诞生了正交补的概念。
设 $W$是欧氏空间$V$的子空间,所有与$W$中任意向量都正交的向量所构成的集合,称为$W$的正交补,记作$W^\perp$:
$$ W^\perp := \{ \alpha \in V \mid (\alpha, \beta) = 0, \; \forall \beta \in W \} $$
$W^\perp$同样是$V$的子空间。通过将$W$的标准正交基$\alpha_1, \dots, \alpha_r$扩充为整个$V$空间的标准正交基$\alpha_1, \dots, \alpha_r, \alpha_{r+1}, \dots, \alpha_n$,后半部分 $\alpha_{r+1}, \dots, \alpha_n$自然顺理成章地成为了$W^\perp$ 的一组标准正交基。
正交补的几何性质——包含关系反向
正交补算子具有非常优美的代数对称性,类似于集合论中的补集,但它保持了线性结构的完整:
直和分解:$W \oplus W^\perp = V$(整个空间可以被唯一地拆分为$W$部分和垂直于$W$ 的部分)。
双重正交补还原:$(W^\perp)^\perp = W$。
包含关系反向:$W \subseteq U \iff W^\perp \supseteq U^\perp$ (空间越大,能与其保持垂直的向量就越少)。
对偶运算法则:$(U + W)^\perp = U^\perp \cap W^\perp$;$(U \cap W)^\perp = U^\perp + W^\perp$。
正交投影:从“垂线段最短”到双侧投影算子
现在我们引入全篇最核心的几何操作——正交投影(Orthogonal Projection)。
如图所示,设 $\alpha$是整个空间$V$中的一个向量,我们想在子空间$W$中找到一个最佳逼近向量$\beta$。
根据直和分解 $V = W \oplus W^\perp$,任意向量 $\alpha$ 都可以被唯一地分解为:
$$ \alpha = \beta + (\alpha - \beta), \quad \text{其中 } \beta \in W, \; (\alpha - \beta) \in W^\perp $$
此时,$\beta$被称为$\alpha$在子空间$W$上的正交投影,而差向量$\alpha - \beta$则垂直于整个子空间$W$(即 $\alpha - \beta \perp W$)。
动机:为什么要大费周章地证明差向量垂直?
因为在几何上,垂线段最短。对 $W$内的任意其他向量$\gamma \in W$,由于 $\beta - \gamma \in W$,而 $\alpha - \beta \perp W$,故 $\alpha - \beta \perp \beta - \gamma$。根据勾股定理(毕达哥拉斯定理),三角形的斜边平方等于两直角边平方和:
$$ \|\alpha - \gamma\|^2 = \|\alpha - \beta\|^2 + \|\beta - \gamma\|^2 \ge \|\alpha - \beta\|^2 $$
从而完美导出:
$$ \|\alpha - \beta\| \le \|\alpha - \gamma\| $$
这表明,正交投影 $\beta$是子空间$W$中距离$\alpha$ 最近的唯一点。在数据科学中,这正是“最小二乘法”与“最优逼近”的几何本质。
投影向量与投影矩阵的完整推导
我们如何具体计算出这个投影向量 $\beta$ 呢?这取决于我们手里拥有什么样的基底。
1. 已知子空间正交基
若 $\beta_1, \dots, \beta_r$是子空间$W$的一组正交基(长度不一定为 1)。由于$\beta \in W$,我们可以将 $\beta$ 表出为:
$$ \beta = k_1 \beta_1 + k_2 \beta_2 + \cdots + k_r \beta_r $$
由于 $\alpha - \beta \perp W$,它必须与每一个基向量 $\beta_i$ 保持正交。由此建立内积方程:
$$ (\alpha - \beta, \beta_i) = 0 \implies (\alpha, \beta_i) = (\beta, \beta_i) $$
将 $\beta$的展开式代入右侧,利用基向量两两正交(当$j \neq i$时$(\beta_j, \beta_i) = 0$),右侧的求和项瞬间塌陷,只剩下一项:
$$ (\alpha, \beta_i) = k_i (\beta_i, \beta_i) \implies k_i = \frac{(\alpha, \beta_i)}{(\beta_i, \beta_i)} $$
成功求出投影向量公式:
$$ \beta = \frac{(\alpha, \beta_1)}{(\beta_1, \beta_1)}\beta_1 + \frac{(\alpha, \beta_2)}{(\beta_2, \beta_2)}\beta_2 + \cdots + \frac{(\alpha, \beta_r)}{(\beta_r, \beta_r)}\beta_r $$
2. 标准内积下的正交投影矩阵 $B B^T$若$\beta_1, \dots, \beta_r$是子空间$W$的一组标准正交基(此时分母$(\beta_i, \beta_i) = 1$),且在标准内积下,内积可以写为矩阵乘法 $(\alpha, \beta_i) = \beta_i^T \alpha$。
推导算子形式:
此时上面的公式简化为:
$$ \beta = (\beta_1^T \alpha)\beta_1 + (\beta_2^T \alpha)\beta_2 + \cdots + (\beta_r^T \alpha)\beta_r $$
由于内积 $\beta_i^T \alpha$是一个纯量(数),我们可以把它写在向量$\beta_i$的右侧(即$\beta_i (\beta_i^T \alpha)$),利用矩阵乘法的结合律提出来:
$$ \beta = \sum_{i=1}^r \beta_i \beta_i^T \alpha = \left( \sum_{i=1}^r \beta_i \beta_i^T \right) \alpha $$
现在,我们将标准正交基按列排成一个矩阵 $B = [\beta_1 \cdots \beta_r]$。根据分块矩阵的乘法展开法则,外积之和 $\sum_{i=1}^r \beta_i \beta_i^T$恰好可以打包写成矩阵与其转置的乘积$B B^T$。
同时,我们也可以从坐标投影的角度来审视这个过程。将公式写为矩阵的分块形式:
$$ \beta = [\beta_1 \cdots \beta_r] \begin{bmatrix} \beta_1^T \alpha \\ \vdots \\ \beta_r^T \alpha \end{bmatrix} = B (B^T \alpha) = \mathbf{B B^T \alpha} $$
其中,乘积中夹在中间的列向量 $B^T \alpha$ 恰好就是投影向量在子空间这组标准正交基下的投影坐标。
由于 $\beta_1, \dots, \beta_r$是标准正交基,显然满足$B^T B = I_r$。我们考察这个新诞生的矩阵算子 $P_W = B B^T$:
幂等性(再投影不变):$P_W^2 = (B B^T)(B B^T) = B (B^T B) B^T = B I_r B^T = B B^T = P_W$。这在几何上极其直观——一幅图像向平面投影一次之后,再投影一次,位置不会发生任何改变。
对称性:$P_W^T = (B B^T)^T = B B^T = P_W$。
这个极其简炼的矩阵 $\mathbf{B B^T}$便是标准内积下的正交投影矩阵,它像一把手术刀,能够瞬间将任意高维向量中属于子空间$W$ 的视觉或信号分量完好无损地剥离出来。
以一个具体的经典综合题为核心,将前面所学的内积判别、施密特正交化(Gram-Schmidt)、矩阵的 QR 分解以及合同变换法融会贯通。通过双视角(解法 1:几何投影流;解法 2:代数矩阵流)的拆解,深刻揭示其背后的几何动机。
示例
题目:已知 $\mathbb{R}^3$上的双线性函数$f(\alpha, \beta)$在基$\alpha_1, \alpha_2, \alpha_3$ 下的度量矩阵为:
$$ A = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 3 \end{bmatrix} $$
$f(\alpha, \beta)$是$\mathbb{R}^3$上的内积吗?如果是,求$f$的一组标准正交基$\beta_1, \beta_2, \beta_3$。
求 $\alpha_3$到子空间$W = \langle\alpha_1, \alpha_2\rangle$ 的距离。
核心前置判别:它合法吗?
由于 $A^T = A$,$A$显然是一个实对称矩阵,因此$f$满足对称性。要判断$f$是否为内积,只需检验$A$ 的正定性。
观察 $A$ 的各阶顺序主子式:
1 阶顺序主子式:$\Delta_1 = 1 > 0$
2 阶顺序主子式:$\Delta_2 = \begin{vmatrix} 1 & 1 \ 1 & 2 \end{vmatrix} = 2 - 1 = 1 > 0$
3 阶顺序主子式:$\Delta_3 = \det(A) = 1 \cdot (6 - 1) - 1 \cdot (3 - 0) = 5 - 3 = 2 > 0$根据霍尔维茨定理(Sylvester’s Criterion),所有顺序主子式均大于 0,故度量矩阵$A$ 正定,$f$确实是$\mathbb{R}^3$ 上的一个非标准内积。
解法 1:几何投影流(施密特正交化与 QR 分解)
动机:利用逐层剥离正交投影的思想,将一组普通的基打磨成标准正交基。在此过程中,自然的副产物就是子空间距离和矩阵的 QR 分解。
1. Gram-Schmidt 正交化推导
我们要寻找一组两两正交的向量组 $\beta_1, \beta_2, \beta_3$。
第一步:定基准
直接令第一个基向量为锚点:
$$ \beta_1 = \alpha_1 $$
- 第二步:剥离 $\alpha_2$在$\beta_1$ 上的投影
$$ \beta_2 = \alpha_2 - \text{Proj}_{\beta_1}(\alpha_2) = \alpha_2 - \frac{f(\alpha_2, \beta_1)}{f(\beta_1, \beta_1)}\beta_1 $$
- 第三步:剥离 $\alpha_3$在$\beta_1, \beta_2$ 张成平面上的投影
$$ \beta_3 = \alpha_3 - \frac{f(\alpha_3, \beta_1)}{f(\beta_1, \beta_1)}\beta_1 - \frac{f(\alpha_3, \beta_2)}{f(\beta_2, \beta_2)}\beta_2 $$
将上述公式项移项,我们能得到一个漂亮的正交分解结构:
$$ \alpha_1 = \beta_1 $$
$$ \alpha_2 = \frac{f(\alpha_2, \beta_1)}{\|\beta_1\|^2}\beta_1 + \beta_2 $$
$$ \alpha_3 = \frac{f(\alpha_3, \beta_1)}{\|\beta_1\|^2}\beta_1 + \frac{f(\alpha_3, \beta_2)}{\|\beta_2\|^2}\beta_2 + \beta_3 $$
2. 升华:矩阵的 QR 分解与距离的本质
如果我们进一步对 $\beta_i$进行单位化,令$\hat{\beta}_i = \frac{\beta_i}{|\beta_i|}$,那么上式可以重写为:
$$ \begin{bmatrix} \alpha_1 & \alpha_2 & \alpha_3 \end{bmatrix} = \begin{bmatrix} \hat{\beta}_1 & \hat{\beta}_2 & \hat{\beta}_3 \end{bmatrix} \begin{bmatrix} \|\beta_1\| & \frac{f(\alpha_2, \beta_1)}{\|\beta_1\|} & \frac{f(\alpha_3, \beta_1)}{\|\beta_1\|} \\ 0 & \|\beta_2\| & \frac{f(\alpha_3, \beta_2)}{\|\beta_2\|} \\ 0 & 0 & \|\beta_3\| \end{bmatrix} $$
这就是大名鼎鼎的 QR 分解:$A_{basis} = Q R$,其中 $Q$ 为正交矩阵,$R$ 为上三角矩阵。
第二问的动机解密:
要求 $\alpha_3$到子空间$\langle\alpha_1, \alpha_2\rangle$的距离,根据“垂线段最短”的原理,这个距离就是$\alpha_3$减去它在平面上的正交投影后的残差向量的长度。而由 Gram-Schmidt 的构造可知,这个残差向量恰好就是$\beta_3$!
因此:
$$ \text{Distance}(\alpha_3, \langle\alpha_1, \alpha_2\rangle) = \|\beta_3\| = \sqrt{f(\beta_3, \beta_3)} $$
在 QR 分解的矩阵 $R$ 中,对角线上的第三个元素 $|\beta_3|$恰好代表了$\alpha_i$ 到它前面所有向量张成子空间的几何距离。
解法 2:代数矩阵流(合同变换与相消法)
动机:几何直观虽然优美,但计算内积和逐项投影的算力开销较大。代数上,我们知道度量矩阵的变换满足合同关系 $P^T A P = I$。如果我们能通过同时施加于行和列的对称初等变换将 $A$化为单位阵$I$,那么过渡矩阵 $P$ 就能一步到位地帮我们找出标准正交基。
1. 对称行列变换(合同对角化)
为了记录对 $A$施加的列变换(它们将构成过渡矩阵$P$),我们在 $A$的下方拼接一个单位阵$I$,组成下半部分联动矩阵。我们对 $A$进行行变换时,必须同时对$A$ 施加相同的列变换,而下方的单位阵只随列变换而动。
目标是将 $A$化为单位阵$I$。输入矩阵初始状态:
$$ \begin{bmatrix} A \\ \hline I \end{bmatrix} = \left[ \begin{array}{ccc} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 3 \\ \hline 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right] $$
第 1 轮消元:消去第一行/列的非对角元
- 将第 1 行的 $-1$倍加到第 2 行,随后同步将第 1 列的$-1$ 倍加到第 2 列:
$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 1 & 3 \\ \hline 1 & -1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right] $$
第 2 轮消元:消去第二行/列的非对角元
- 将第 2 行的 $-1$倍加到第 3 行,随后同步将第 2 列的$-1$ 倍加到第 3 列:
$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \\ \hline 1 & -1 & 1 \\ 0 & 1 & -1 \\ 0 & 0 & 1 \end{array} \right] $$
此时上半部分已化为对角阵 $\text{diag}(1, 1, 2)$。
第 3 轮:单位化对角元
- 为了将第三行第三列的 $2$变为$1$,需要将第 3 行乘以 $1/\sqrt{2}$,并同步将第 3 列乘以 $1/\sqrt{2}$:
$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \hline 1 & -1 & 1/\sqrt{2} \\ 0 & 1 & -1/\sqrt{2} \\ 0 & 0 & 1/\sqrt{2} \end{array} \right] $$
2. 完美的代数收尾
当下半部分的联合阵演变完成时,我们直接拓印出过渡矩阵 $P$:
$$ P = \begin{bmatrix} 1 & -1 & 1/\sqrt{2} \\ 0 & 1 & -1/\sqrt{2} \\ 0 & 0 & 1/\sqrt{2} \end{bmatrix} $$
根据构造,它严丝合缝地满足:
$$ P^T A P = I $$
此时,我们直接读取 $P$ 的列向量,将新基底表出为:
$$ (\beta_1, \beta_2, \beta_3) = (\alpha_1, \alpha_2, \alpha_3) P $$
即:
$$ \beta_1 = \alpha_1 $$
$$ \beta_2 = -\alpha_1 + \alpha_2 $$
$$ \beta_3 = \frac{1}{\sqrt{2}}\alpha_1 - \frac{1}{\sqrt{2}}\alpha_2 + \frac{1}{\sqrt{2}}\alpha_3 $$
这组基两两之间的内积为 $f(\beta_i, \beta_j) = \delta_{ij}$,正是我们梦寐以求的标准正交基。
最小二乘解
在工程应用中,我们常常需要求解线性方程组 $AX = \beta$。当数据的观测点数远远多于未知数个数时,矩阵 $A$往往是“瘦长”的,此时方程组通常无解(即$\beta$不在$A$的列空间$C(A)$ 内)。在数学上,我们称之为矛盾方程组。
动机:既然无法做到完美精确,如何找到一个“退而求其次”的最优近似解?
根据欧氏空间的投影几何,子空间中距离 $\beta$最近的点,唯有$\beta$在该子空间上的正交投影$\gamma$。因此,我们无法让 $AX = \beta$成立,但我们可以退而求求一个$X$,使得 $AX$恰好等于投影$\gamma$。
定理推导:
设 $\gamma$是列向量$\beta$在$A$的列空间上的正交投影,则方程组$AX = \gamma$必然有解。根据正交投影的定义,残差向量$\beta - \gamma$必须垂直于整个列空间$C(A)$:
$$ \beta - AX \perp C(A) $$
这意味着 $\beta - AX$与$A$ 的每一个列向量的内积都为 0,写成矩阵形式即:
$$ A^T (\beta - AX) = 0 $$
展开得到:
$$ A^T \beta - A^T AX = 0 \iff \mathbf{A^T AX = A^T \beta} $$
这个新方程组被称为法方程组(Normal Equations)。
结论:方程组 $AX = \gamma$与$A^T AX = A^T \beta$ 等解。
定义:法方程组的解 $\eta$(总存在,但可能不唯一)称为原矛盾方程组 $AX = \beta$ 的最小二乘解。
当 $A = [\alpha_1 \cdots \alpha_n]$列满秩(即各列向量线性无关)时,乘积矩阵$A^T A$ 满秩可逆,此时最小二乘方程拥有唯一的优美解析解:
$$ X = (A^T A)^{-1} A^T \beta $$
其中,$\mathbf{A^+ = (A^T A)^{-1} A^T}$称为$A$ 的广义逆矩阵(伪逆),为 $A$最好的左逆。此时,正交投影向量可表达为$\gamma = AX = A A^+ \beta$,而 $X = A^+ \beta$ 则是投影向量在列空间基底下的坐标。
最小二乘法与回归直线
将上述高维抽象几何投射到二维平面上,便完美解释了统计学中的线性回归。
1. 问题的提出与误差建模
平面上给定 $n$个实验观测点$P_i = (a_i, b_i) ; (i=1, 2, \dots, n)$,我们希望找到一条直线 $y = kx + l$,使得这些点整体上距离这条直线最近。
动机:如何定量刻画“整体最近”?
直接测量点到直线的几何距离(垂直距离)会引入复杂的根式,不利于求导优化。因此,我们选择考察点到直线的竖直距离($y$ 轴距离)的平方和。
对于任意观测点 $a_i$,其模型预测值为 $k a_i + l$,实际观测值为 $b_i$,两者的竖直误差为 $|b_i - ka_i - l|$。
我们的目标是:求出最优参数 $k$和$l$,使得残差平方和 $S$ 达到最小:
$$ \min_{k, l} \sum_{i=1}^n (b_i - ka_i - l)^2 $$
2. 向量化与高维几何转换
为了使用线性代数工具,我们将这 $n$ 个代数方程打包:
记设计矩阵 $A$与观测向量$\beta$ 分别为:
$$ A = [\alpha_1 \; \alpha_2] = \begin{bmatrix} 1 & a_1 \\ 1 & a_2 \\ \vdots & \vdots \\ 1 & a_n \end{bmatrix}, \quad \beta = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix}, \quad X = \begin{bmatrix} l \\ k \end{bmatrix} $$
那么,残差平方和在 $n$ 维欧氏空间中可以等价地写为残差向量的欧氏范数(模长)的平方:
$$ \sum_{i=1}^n (b_i - ka_i - l)^2 = \|\beta - k\alpha_2 - l\alpha_1\|^2 = \|\beta - AX\|^2 $$
于是,一幅宏大的高维几何图景在 $n$ 维空间中徐徐展开:
向量 $\alpha_1$(全 1 向量)与 $\alpha_2$(自变量向量)在 $n$ 维空间中张成了一个二维子空间(平面)$V = \langle\alpha_1, \alpha_2\rangle$。
观测数据 $\beta$是$n$ 维空间中的一个自由向量。
寻找最优的 $k, l$使得$|\beta - AX|$最小,本质上就是在平面$V$上寻找一个线性组合$k\alpha_2 + l\alpha_1$,使其到 $\beta$ 的欧氏距离最短。
根据垂线段最短原理,当 $k\alpha_2 + l\alpha_1$恰好取成$\beta$到子空间$V$的正交投影时,距离达到最小。由于矩阵$A$ 显然列满秩,我们直接代入前面的伪逆公式,便能一步到位求出回归直线的截距与斜率:
$$ X = \begin{bmatrix} l \\ k \end{bmatrix} = (A^T A)^{-1} A^T \beta $$
范式的泛化:非线性多项式曲线拟合
最小二乘投影算子的伟大之处在于,它绝不局限于“直线拟合”。只要未知参数之间是线性组合关系,它就能以相同的数学结构拟合任意高阶曲线。
升级动机:如果数据点呈现出明显的弯曲趋势(如抛物线),直线模型失效了怎么办?
我们可以将拟合模型升级为二次多项式曲线:
$$ y = ux^2 + vx + w $$
此时,对于同样的观测点 $P_i = (a_i, b_i)$,单个点的竖直残差绝对值为 $|b_i - u a_i^2 - v a_i - w|$。
为了让残差平方和 $\sum_{i=1}^n (b_i - u a_i^2 - v a_i - w)^2$达到最小,我们只需要重新定义设计矩阵$A$的基底。此时,我们在$n$维空间中构造三个基向量:常数项向量$\alpha_1$、一次项向量 $\alpha_2$、二次项向量 $\alpha_3$:
$$ A = [\alpha_1 \; \alpha_2 \; \alpha_3] = \begin{bmatrix} 1 & a_1 & a_1^2 \\ 1 & a_2 & a_2^2 \\ \vdots & \vdots & \vdots \\ 1 & a_n & a_n^2 \end{bmatrix}, \quad \beta = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix}, \quad X = \begin{bmatrix} w \\ v \\ u \end{bmatrix} $$
此时,问题再次转化为:在 $n$维空间中,求$\beta$在三个向量张成的三维子空间$V = \langle\alpha_1, \alpha_2, \alpha_3\rangle$ 上的正交投影。
最终的代数求解公式依然维持了它完美的永恒形式:
$$ X = \begin{bmatrix} w \\ v \\ u \end{bmatrix} = (A^T A)^{-1} A^T \beta $$
从一维信号的加权度量,到高维空间中无可辩驳的垂线段投影,最小二乘法用最精炼的法方程组 $A^T AX = A^T \beta$,在线性与非线性、代数与几何、理论与现实之间,筑起了一座精妙绝伦的桥梁。
正交变换
正交变换在几何上对应着高维空间的“保距旋转”与“镜像反射”。我们将从内积空间的算子本质出发,完整推导其谱分析性质,并解构其在代数群论中的群论结构。
一、 正交变换的代数本质与多维等价性
定义:设 $V$ 是欧氏空间,$\mathcal{A}$是$V$上的线性变换。如果$\mathcal{A}$保持任意向量的内积不变,则称$\mathcal{A}$ 为正交变换。
$$ \forall \alpha, \beta \in V, \quad (\mathcal{A}\alpha, \mathcal{A}\beta) = (\alpha, \beta) $$
动机:如何将一个抽象算子的“保内积”性质,转化为计算机可直接计算的矩阵语言? 我们需要在一组标准正交基下对其进行坐标化表征。
等价性推导: 设空间 $V$中有一组标准正交基,向量$\alpha, \beta$在该基下的坐标列向量分别为$X, Y$。由于是标准正交基,其度量矩阵为单位阵 $I$,因此两向量的内积可以极其干净地写为矩阵乘法:
$$ (\alpha, \beta) = X^T I Y = X^T Y $$
设线性变换 $\mathcal{A}$在该组标准正交基下的对应矩阵为$A$。变换后新向量 $\mathcal{A}\alpha$与$\mathcal{A}\beta$的坐标分别变为$AX$和$AY$。 代入变换后的内积表达式:
$$ (\mathcal{A}\alpha, \mathcal{A}\beta) = (AX)^T (AY) = X^T A^T A Y $$
要让正交变换的定义对任意向量(即任意坐标 $X, Y$)都成立,必须满足:
$$ X^T A^T A Y = X^T Y \implies \mathbf{A^T A = I} $$
这表明,矩阵 $A$ 必须是一个正交矩阵(其逆矩阵等于其转置:$A^{-1} = A^T$)。
正交变换的四大等价刻画
在欧氏空间中,以下四个命题完全等价,它们分别从算子、几何、基底和矩阵的角度描述了同一个刚性世界:
$\mathcal{A}$ 是正交变换(保持内积不变)。
$\mathcal{A}$保持向量的长度不变,即$|\mathcal{A}\alpha| = |\alpha|, ; \forall \alpha \in V$(保模长/保距性)。
$\mathcal{A}$ 将一组标准正交基映射为另一组标准正交基(保基性)。
$\mathcal{A}$ 在任意一组标准正交基下的表示矩阵均为正交矩阵(矩阵表征)。
二、 谱分析性质:复特征值的单位圆约束
既然正交矩阵代表高维旋转或镜像,那么它的特征值(谱)必然受到强烈的几何约束。在实数域内,旋转可能没有实特征值(例如二维平面旋转 $\theta$ 角),但如果我们把视野拓宽到复数域,正交矩阵的谱结构表现出极致的对称。
推论:若 $A$是欧氏空间$V$上的正交变换对应的矩阵,则$A$的任一复特征值$\lambda$ 都满足:
$$ |\lambda| = 1 $$
也就是说,正交矩阵的复特征值全部落在复平面的单位圆周上。
完整推导过程: 设 $\lambda$是实正交矩阵$A$ 的一个复特征值,$\alpha$ 是其对应的复特征向量($\alpha \neq 0$)。由于引入了复数,特征方程写为:
$$ A\alpha = \lambda \alpha $$
我们在两边同时取共轭转置(Conjugate transpose,记为 $\dagger$或$\overline{T}$)。注意到 $A$是实矩阵,故$\overline{A} = A$:
$$ \overline{\alpha}^T A^T = \overline{\lambda} \overline{\alpha}^T $$
现在,我们将上述共轭转置式与原特征方程进行内积联动(左侧乘以右侧):
$$ \left( \overline{\alpha}^T A^T \right) (A\alpha) = \left( \overline{\lambda} \overline{\alpha}^T \right) (\lambda \alpha) $$
利用矩阵乘法的结合律,将中间项合并:
$$ \overline{\alpha}^T (A^T A) \alpha = \overline{\lambda} \lambda (\overline{\alpha}^T \alpha) $$
由于 $A$是正交矩阵,满足$A^T A = I$;而在复数域中,$\overline{\lambda}\lambda = |\lambda|^2$。代入上式:
$$ \overline{\alpha}^T I \alpha = |\lambda|^2 (\overline{\alpha}^T \alpha) \implies \overline{\alpha}^T \alpha = |\lambda|^2 (\overline{\alpha}^T \alpha) $$
由于特征向量 $\alpha \neq 0$,复向量与其共轭转置的乘积 $\overline{\alpha}^T \alpha = \sum | \alpha_i |^2$必然是一个大于 0 的实数。因此,我们可以在等式两边同时约去$\overline{\alpha}^T \alpha$,干净地导出:
$$ |\lambda|^2 = 1 \implies \mathbf{|\lambda| = 1} $$
这个优美的代数推导在几何上极为直观:因为正交变换具有保模长性($|A\alpha| = |\alpha|$),而如果特征值伸缩了向量($|A\alpha| = |\lambda||\alpha|$),两相对比,伸缩因子 $|\lambda|$只能绝对等于$1$。
三、 群论视角:正交群 $O(n)$与特殊正交群$SO(n)$当我们把全体$n$ 阶正交矩阵聚集在一起,它们对矩阵乘法表现出了完美的封闭性,从而构成了近世代数中极重要的经典李群(Lie Group)。
1. 正交群(Orthogonal Group)— $O(n)$全体$n$阶正交矩阵在矩阵乘法下构成一个群,称为$n$级正交群,记为$O(n)$。
动机:为什么它能成群?
封闭性:若 $A, B \in O(n)$,则 $(AB)^T(AB) = B^T (A^T A) B = B^T I B = B^T B = I$,故 $AB$ 亦为正交矩阵。
单位元:单位阵 $I$显然满足$I^T I = I$。
逆元:若 $A \in O(n)$,由于 $A^{-1} = A^T$,则 $(A^{-1})^T(A^{-1}) = (A^T)^T A^T = A A^T = I$,逆元依然正交。
2. 特殊正交群(Special Orthogonal Group)— $SO(n)$对于任意正交矩阵$A \in O(n)$,我们在等式 $A^T A = I$ 两边取行列式:
$$ \det(A^T A) = \det(A^T)\det(A) = \det(A)^2 = \det(I) = 1 \implies \det(A) = \pm 1 $$
基于行列式的符号,正交群被完美地切分为两部分:
$\det(A) = 1$:代表纯旋转变换(保持空间的定向不改变)。
$\det(A) = -1$:代表包含镜像反射的变换(颠倒了空间的右手系与左手系)。
由所有行列式为 $1$的$n$阶正交矩阵构成的子群,称为$n$级特殊正交群,记为$SO(n)$,在物理与工程中常被称为旋转群(如描述三维空间刚体旋转的 $SO(3)$)。
几何的刚性与旋转的算子化表达
一、 二维欧氏空间 $\mathbb{R}^2$ 的正交基与刚性基底
当我们谈论欧氏空间的刚性时,最直观的语言莫过于“保内积”。无论是镜面反射还是绕原点的旋转,这些变换在本质上都维持了向量的长度与夹角。在代数框架下,这种保几何结构的算子被具象化为正交矩阵。我们习惯于直接罗列正交矩阵的性质,但若退回起点,我们会发现正交矩阵不仅是一堆行(列)向量拼成的标准正交基,它更是复数平面的高维延伸、刚性算子的矩阵化身。
在欧氏空间 $\mathbb{R}^2$中,如果选定了一组标准正交基${\alpha, \beta}$,那么任何一个由它们作为列构成的矩阵 $A = [\alpha \quad \beta]$必然满足正交矩阵的定义。几何上,这意味着$\alpha$和$\beta$ 都是单位向量且彼此正交($\alpha \perp \beta$)。
构想的动机: 如何用一个单一的连续参数去约束两个互相垂直的单位向量?最自然的代数刻画就是三角函数。因为任何单位圆上的点都可以被参数化为坐标,这使得我们可以用一个旋转角来统摄整组基的形态。
基于此,二维正交矩阵自然地分裂为两类形态:
- 第一类(行列式为 1):
$$ A_\theta = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} $$
- 第二类(行列式为 -1):
$$ B_\theta = \begin{bmatrix} \cos\theta & \sin\theta \\ \sin\theta & -\cos\theta \end{bmatrix} $$
1. 第一类正交矩阵 $A_\theta$ 的复本征结构与几何旋转
对于变换 $X \mapsto A_\theta X$,其几何效应显而易见:将平面上的向量绕原点逆时针旋转 $\theta$角。然而,当我们试图在实数范围内寻找它的特征值(eigenvalue)和特征向量时,除非$\theta$是$\pi$ 的整数倍,否则在实平面上根本找不到“方向保持不变”的向量。这迫使我们将视线拓宽到复数域。
为了探寻旋转变换的本征结构,我们求解特征方程 $\det(\lambda I - A_\theta) = 0$,即:
$$ (\lambda - \cos\theta)^2 + \sin^2\theta = 0 \implies \lambda = \cos\theta \pm i\sin\theta = e^{\pm i\theta} $$
将复特征值带回,我们可以对矩阵 $A_\theta$ 进行复相似对角化:
$$ \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} 1 & 1 \\ -i & i \end{bmatrix} = \begin{bmatrix} 1 & 1 \\ -i & i \end{bmatrix} \begin{bmatrix} \cos\theta + i\sin\theta & 0 \\ 0 & \cos\theta - i\sin\theta \end{bmatrix} $$
这揭示了一个深刻的本质:二维平面的实旋转,在复空间中不过是沿着两个共轭复向量方向的纯粹拉伸。复数域在这里充当了看清几何旋转底层逻辑的瞳孔。
2. 第二类正交矩阵 $B_\theta$ 的反射本征解构
当行列式变为 $-1$时,矩阵$B_\theta$ 失去了保持空间定向(手性,chirality)的能力,退化为一种镜像反射。我们可以通过一个精妙的代数重组来洞察它的内部构造:
$$ B_\theta = \begin{bmatrix} \cos\theta & \sin\theta \\ \sin\theta & -\cos\theta \end{bmatrix} = \begin{bmatrix} \cos(\theta/2) & -\sin(\theta/2) \\ \sin(\theta/2) & \cos(\theta/2) \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix} \begin{bmatrix} \cos(\theta/2) & \sin(\theta/2) \\ -\sin(\theta/2) & \cos(\theta/2) \end{bmatrix} $$
重组的几何动机: 这种三因子乘积的结构形式为 $P M P^{-1}$。其中中间的矩阵是对 $y$轴的标准镜像反射,而两侧的矩阵则代表将坐标轴旋转$\theta/2$。这说明,所谓的第二类正交变换,本质上就是关于一条与 $x$轴夹角为$\theta/2$ 的直线的镜面反射。
若任取一个方向为 $\omega$的单位向量$X = \begin{bmatrix} \cos\omega \ \sin\omega \end{bmatrix}$,经 $B_\theta$ 作用后得到:
$$ AX = \begin{bmatrix} \cos\theta\cos\omega + \sin\theta\sin\omega \\ \sin\theta\cos\omega - \cos\theta\sin\omega \end{bmatrix} = \begin{bmatrix} \cos(\theta - \omega) \\ \sin(\theta - \omega) \end{bmatrix} $$
从物理几何上看,初始角为 $\omega$,变换后的角为 $\theta - \omega$。两者的算术平均值恰好是 $(\omega + \theta - \omega)/2 = \theta/2$。这就极其直观地证明了,该变换始终关于 $\theta/2$ 射线保持对称,它确实是一个标准的反射算子。
二、 二维变换的群复合与代数结构
旋转与反射算子之间的复合并不是杂乱无章的,它们构成了一个严密的代数闭环(即正交群 $O(2)$及其子群$SO(2)$)。我们拥有以下运算规则:
- 旋转与旋转复合:$A_\theta A_\omega = A_{\theta+\omega}$。这说明连续旋转在角度上是直接相加的,满足交换律。
- 反射与反射复合:$B_\theta B_\omega = A_{\theta-\omega}$。两次手性改变的反射叠加,几何上等价于一次纯粹的旋转,旋转角为两侧反射轴夹角两倍。
- 旋转与反射复合:$A_\theta B_\omega = B_{\theta+\omega}$以及$B_\omega A_{-\theta} = B_{\theta+\omega}$。这反映了群的不交换性,同时也表明旋转与反射相互作用后依然是反射。
三、 三维欧氏空间中的旋转与反射推演
当我们将维度提升到三维空间 $\mathbb{R}^3$ 时,刚性变换的复杂性由于多出一个维度的自由度而陡增。但借助第一性原理,我们依然可以通过低维的结论去拆解高维的内核。
1. 第一类 3 阶正交矩阵($\det(A) = 1$)—— 空间旋转的本质
【定理证明 1】 证明 $\lambda = 1$必然是$A$ 的一个特征值。
动机: 若能证明存在 $\lambda = 1$,就意味着在三维空间中必定存在一个向量在变换后保持不动,这个不动向量所指的方向就是空间旋转的旋转轴。
我们需要考察特征多项式在 $\lambda = 1$时的取值,即判断矩阵$A - I$是否奇异(singular)。利用正交矩阵的性质$A^T A = I$以及$\det(A) = 1$:
$$ \det(A - I) = \det(A - A A^T) = \det(A (I - A^T)) = \det(A) \cdot \det(I - A^T) = 1 \cdot \det(I - A)^T = \det(I - A) $$
由于 $A$是 3 阶矩阵,对于任意 3 阶矩阵有$\det(I - A) = (-1)^3 \det(A - I) = -\det(A - I)$。
因此,我们得到:
$$ \det(A - I) = -\det(A - I) \implies 2\det(A - I) = 0 \implies \det(A - I) = 0 $$
由此断定,矩阵 $A - I$必然奇异,齐次线性方程组$(A - I)x = 0$ 存在非零解。即 $\lambda = 1$必为矩阵$A$ 的特征值。
【标准型扩充与降维表达 2】
既然 $\lambda = 1$是特征值,我们便可取其对应的单位特征向量记为$\alpha_1$,满足 $A\alpha_1 = \alpha_1$。为了研究整个空间的动力学,我们需要构造一个协调的坐标系。根据施密特正交化或基扩张定理,可将 $\alpha_1$扩充为$\mathbb{R}^3$的一组标准正交基${\alpha_1, \alpha_2, \alpha_3}$。
证明:${\alpha_1, A\alpha_2, A\alpha_3}$ 仍为一组标准正交基,且变换具有正交子空间不变性。
因为正交变换保持内积不变,且 $A\alpha_1 = \alpha_1$,我们直接考察内积:
$$ (\alpha_1, A\alpha_2) = (A\alpha_1, A\alpha_2) = (\alpha_1, \alpha_2) = 0 $$
$$ (\alpha_1, A\alpha_3) = (A\alpha_1, A\alpha_3) = (\alpha_1, \alpha_3) = 0 $$
这说明向量 $A\alpha_2$和$A\alpha_3$依然与$\alpha_1$保持垂直。换言之,由${\alpha_2, \alpha_3}$张成的二维正交补空间在变换$A$的作用下是自身不变的(即$A\alpha_2, A\alpha_3 \in \text{span}{\alpha_2, \alpha_3}$)。此外:
$$ (A\alpha_i, A\alpha_j) = (\alpha_i, \alpha_j) = \delta_{ij} \quad (i, j = 2, 3) $$
因此,整个基底在变换后完全维持了标准正交性。
【旋转标准型的最终确立 3】
由于 $A\alpha_2$和$A\alpha_3$缩回到了${\alpha_2, \alpha_3}$的二维子空间中,并且保持了二维正交性,加之整体行列式$\det(A) = 1$,限制在这个子空间上的变换必然是一个第一类的二维旋转。因此,存在某个旋转角 $\theta$,使得:
$$ A\alpha_2 = \cos\theta \alpha_2 + \sin\theta \alpha_3 $$
$$ A\alpha_3 = -\sin\theta \alpha_2 + \cos\theta \alpha_3 $$
若我们构造正交过渡矩阵 $P = [\alpha_1 \quad \alpha_2 \quad \alpha_3]$,在这组新基下,算子 $A$ 被完美地表示为分块对角标准型:
$$ A P = P \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} \implies \mathbf{P^{-1}AP = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix}} $$
结论: 这在代数上给出了最清晰的几何定性——任何第一类 3 阶正交变换,本质上都是绕着某一个特定轴 $\alpha_1$旋转了$\theta$ 角的刚性变换。
迹(Trace)的不变性推演: 由于矩阵的迹在相似变换下具有不变性,我们可以建立起矩阵的纯代数指标与空间旋转角之间的直接纽带:
$$ \text{Tr}(A) = \text{Tr}(P^{-1}AP) = 1 + \cos\theta + \cos\theta = 1 + 2\cos\theta $$
这轴心公式给出了通过任意三维旋转矩阵求解旋转角的唯一方式:$2\cos\theta = \text{Tr}(A) - 1$。
2. 第二类 3 阶正交矩阵($\det(A) = -1$)—— 旋转反射的交织
当行列式为 $-1$ 时,空间结构中必定包含奇数次镜像反射。其结构推导与第一类形成了镜像对称:
【定理证明 1】 证明 $\lambda = -1$必然是$A$ 的一个特征值。
证明: 同样考察特征多项式在 $\lambda = -1$时的表现,利用$A^T A = I$且$\det(A) = -1$:
$$ \det(A + I) = \det(A + A A^T) = \det(A(I + A^T)) = \det(A) \cdot \det(I + A^T) = (-1) \cdot \det(I + A)^T = -\det(A + I) $$
因为是 3 阶矩阵,所以移项得:
$2\det(A + I) = 0 \implies \det(A + I) = 0$> 这强有力地证明了,齐次方程$(A + I)x = 0$ 存在非零解,即 $\lambda = -1$ 必为其特征值。几何上,这意味着存在一个方向,在变换后方向完全反转,它构成了镜像的法线方向。
【标准型确立 2】
取该特征值对应的单位特征向量为 $\alpha_1$,有 $A\alpha_1 = -\alpha_1$。同样将其扩充为全空间的标准正交基 ${\alpha_1, \alpha_2, \alpha_3}$。通过完全相同的正交子空间分析,其余下的二维正交补空间依然保持不变。但由于总行列式为 $-1$,而分块项贡献了一个 $-1$,导致作用于二维子空间上的截面算子行列式必须为 $(-1)/(-1) = 1$(即必须为纯旋转)。
因此,在过渡矩阵 $P = [\alpha_1 \quad \alpha_2 \quad \alpha_3]$ 建立的坐标系下,第二类正交矩阵的标准型被重组为:
$$ \mathbf{P^{-1}AP = \begin{bmatrix} -1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix}} $$
结论: 这类变换的几何图景同样清晰——它被称为旋转反射(Rotoreflection)。算子先将整个空间绕着 $\alpha_1$轴旋转$\theta$角,随后紧接着关于垂直于该轴的平面(由${\alpha_2, \alpha_3}$ 张成)进行一次镜像反射。这种复合形态构成了晶体学和高维空间对称性分析的基石。
四、 核心结论对比与批判性视阈
| 空间维度 | 变换类型 | 行列式 $\det(A)$ | 特征值结构 | 代数标准型 | 几何本源 |
|---|---|---|---|---|---|
| 二维 ($\mathbb{R}^2$) | 第一类 | $1$ | $e^{\pm i\theta}$ | $\begin{bmatrix} \cos\theta & -\sin\theta \ \sin\theta & \cos\theta \end{bmatrix}$ | 绕原点纯粹旋转$\theta$ |
| 二维 ($\mathbb{R}^2$) | 第二类 | $-1$ | $1, -1$ | $\begin{bmatrix} \cos\theta & \sin\theta \ \sin\theta & -\cos\theta \end{bmatrix}$ | 关于$\theta/2$ 射线的镜面反射 |
| 三维 ($\mathbb{R}^3$) | 第一类 | $1$ | $1, e^{\pm i\theta}$ | $\text{diag}(1, A_\theta)$ | 以$\alpha_1$ 为轴的空间旋转 |
| 三维 ($\mathbb{R}^3$) | 第二类 | $-1$ | $-1, e^{\pm i\theta}$ | $\text{diag}(-1, A_\theta)$ | 绕轴旋转后关于正交面反射 |
五、旋转算子的空间共轭引理:基底变换的代数视角
在研究三维刚体旋转时,我们经常遇到这样的问题:如果已知一个旋转是绕某个标准轴(如 $z$ 轴)进行的,那么当旋转轴被变换到另一个任意方向时,算子的矩阵形式会发生什么变化?
设 $A, B \in SO(3)$,其中 $A$对应的变换是绕单位向量$\alpha$依右手方向旋转$\theta$角(记为$\rho(\alpha, \theta)$)。则 $BAB^T$对应的变换是绕单位向量$B\alpha$右手旋转$\theta$ 角,即:
$$ \rho(B\alpha, \theta) = B \rho(\alpha, \theta) B^T \quad \iff \quad B \rho(\alpha, \theta) = \rho(B\alpha, \theta) B $$
α ───────── 绕 α 旋转 θ (算子 A) ─────────► Aα
│ ▲
│ │
施加空间变换 B 施加空间变换 B
│ │
▼ │
Bα ──── 绕 Bα 旋转 θ (算子 B A Bᵀ) ──────────┘
动机与第一性原理破译: > 矩阵的共轭复合形式 $B A B^T$(由于 $B$是正交矩阵,即$B A B^{-1}$)在几何上代表**“坐标系的搬移”**。
它的物理执行步骤是从右往左读的:
$B^T$(即 $B^{-1}$):将当前处于新空间(变换后)的向量逆向拉回到初始参考系;
$\rho(\alpha, \theta)$:在初始参考系中,绕原旋转轴 $\alpha$舒舒服服地旋转$\theta$ 角;
$B$:将旋转后的向量整个顺向搬移回新空间。
这一连串动作的净效应,在宏观上完美等价于“在新空间中直接绕新轴 $B\alpha$旋转$\theta$ 角”。这是近代物理与计算机图形学中“主动变换”与“被动变换”相互转换的底层逻辑。
二、 $SO(3)$ 的参数化:欧拉角(Euler Angles)的代数复合机制
描述一个刚体(如飞机、航天器)在三维空间中的任意姿态,通常需要 3 个自由度。欧拉角的本质就是将一个复杂的单次空间旋转,拆解为三个绕着特定轴的经典二维旋转的复合。
在航空工程中,最直观的姿态描述是 偏航角(Yaw, $\psi$)、俯仰角(Pitch, $\theta$) 和滚转角(Roll, $\phi$)。然而在代数推演中,晶体学和分析力学更青睐于 $z\text{-}x\text{-}z$欧拉角:即任何第一类正交变换都可以分解为绕$z$轴旋转、绕新$x$轴旋转、再绕最新$z$ 轴旋转。
为了定量计算,我们先写出绕基础轴旋转的二维分块算子:
$$ A_\theta = \begin{bmatrix} \cos\theta & -\sin\theta & 0 \\ \sin\theta & \cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \quad (\text{绕 } z \text{ 轴}), \qquad B_\omega = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\omega & -\sin\omega \\ 0 & \sin\omega & \cos\omega \end{bmatrix} \quad (\text{绕 } x \text{ 轴}) $$
然而,连续旋转由于“每一次旋转都会把下一次要用的旋转轴一起带走”,导致复合矩阵的乘法顺序变得极其微妙。这里分裂出了两种完全对立却在数学上等价的表述方式:
1. 随动坐标系(Intrinsic / Body-fixed)表示法
若每一次旋转都是绕着刚体自身当前附着的、运动着的坐标轴进行(即随动轴):
第一次:绕刚体自身的 $z$轴旋转$\psi$角,此时刚体的$x$轴被带到了新位置$x’$;
第二次:绕刚体当前新位置的 $x’$轴旋转$\theta$角,此时刚体的$z$轴被带到了最新位置$z’’$;
第三次:绕刚体最新位置的 $z’’$轴旋转$\phi$ 角。
随动乘法规则: 这种直观的随动变换,其代数复合矩阵的乘法顺序竟然与直观执行顺序完全一致(从左到右):
$$ M_{\text{intrinsic}} = A_\psi B_\theta A_\phi $$
2. 静止坐标系(Extrinsic / Space-fixed)表示法
如果我们在整个过程中双眼紧盯着绝对静止的空间参考参考系,要求每一次旋转轴都必须是空间中死死不动的绝对坐标轴:
静止乘法规则: 若针对静止坐标轴进行复合,其乘法顺序必须完全颠倒(从右到左):
$$ M_{\text{extrinsic}} = A_\phi B_\theta A_\psi $$
3. 核心定理:随动与静止表示法的等价性推导
用静止坐标系表示随动旋转时,形式会发生反转。我们从第一性原理和前面的“共轭引理”出发,给出其完整的动力学证明:
证明:
刚体最初的旋转是绕着初始静止系统的 $z$轴旋转$\psi$,算子为 $A_\psi$。
第二步,我们需要绕随动轴 $x’$旋转$\theta$。这个随动轴 $x’$是怎么来的?它是原本静止的$x$轴被第一步的$A_\psi$作用后的结果,即$x’ = A_\psi(x)$。
根据我们的共轭变换引理 $\rho(B\alpha, \theta) = B\rho(\alpha, \theta)B^T$,这里搬移坐标系的矩阵就是 $A_\psi$,原本绕静止轴的旋转是 $B_\theta$。因此,绕随动轴 $x’$旋转$\theta$ 的实际算子被转化为:
$$ R_2 = A_\psi B_\theta A_\psi^T $$
此时,前两步的累计总旋转算子为:
$$ R_{\text{total, 2}} = R_2 \cdot A_\psi = (A_\psi B_\theta A_\psi^T) A_\psi = A_\psi B_\theta $$
第三步,我们需要绕最新的随动轴 $z’’$旋转$\phi$。这个 $z’’$轴是原本静止的$z$轴经历了前两步累计变换$R_{\text{total, 2}}$后的产物,即$z’’ = (A_\psi B_\theta)(z)$。
再次套用共轭变换引理,绕随动轴 $z’’$旋转$\phi$ 的实际算子为:
$$ R_3 = (A_\psi B_\theta) A_\phi (A_\psi B_\theta)^T = A_\psi B_\theta A_\phi B_\theta^T A_\psi^T $$
最终,将第三步算子左乘到前两步的总结果上,得到完整的随动复合算子:
$$ M = R_3 \cdot R_{\text{total, 2}} = (A_\psi B_\theta A_\phi B_\theta^T A_\psi^T) \cdot (A_\psi B_\theta) $$
利用正交矩阵的消去律($A_\psi^T A_\psi = I$且$B_\theta^T B_\theta = I$),我们看到中间的项像多米诺骨牌一样纷纷消去:
$$ M = A_\psi B_\theta A_\phi \underbrace{B_\theta^T A_\psi^T A_\psi B_\theta}_{I} = A_\psi B_\theta A_\phi $$
恒等式展开:
我们可以反向把这个结果拆开,从而彻底看清它与静止轴的转换关系:
$$ A_\psi B_\theta A_\phi = (A_\psi B_\theta A_\phi B_\theta^{-1} A_\psi^{-1}) \cdot (A_\psi B_\theta A_\psi^{-1}) \cdot A_\psi $$
结论: 每次做随动坐标的旋转,其代数本质都是“首先将坐标轴变回最初的静止状态,作静止坐标的旋转,再原路返回”。这在代数上天衣无缝地解释了为什么随动表示法的矩阵是从左向右乘,而静止表示法是从右向左乘。
对称变换
对称变换(Symmetric Transformations)与谱结构
从正交变换(保手性、保长度的刚性运动)中抽离出来,线性空间中另一类极为尊贵的算子是对称变换。它们不负责“旋转”空间,而是负责沿着某些特定的交错方向进行纯粹的拉伸分形。
1. 严格定义
若线性变换 $A$ 满足以下内积对称性:
$$ (A\alpha, \beta) = (\alpha, A\beta), \quad \forall \alpha, \beta \in V $$
则称 $A$ 为对称变换。
2. 坐标化证明
定理:$A$是对称变换$\iff A$ 在标准正交基下的矩阵是实对称矩阵($A^T = A$)。
证明:
选定一组标准正交基 ${\alpha_1, \dots, \alpha_n}$。根据定义,变换算子在这组基下的矩阵元素 $a_{ij}$ 满足:
$$ A\alpha_j = a_{1j}\alpha_1 + \dots + a_{nj}\alpha_n = \sum_{k=1}^n a_{kj}\alpha_k $$
由于基底是标准正交的($(\alpha_i, \alpha_k) = \delta_{ik}$),利用内积取出系数:
$$ (\alpha_i, A\alpha_j) = \Big(\alpha_i, \sum_{k=1}^n a_{kj}\alpha_k\Big) = a_{ij} $$
同理,将 $A$ 作用在左边:
$$ (A\alpha_i, \alpha_j) = (\alpha_j, A\alpha_i) = a_{ji} $$
若 $A$是对称变换,根据定义必有$(\alpha_i, A\alpha_j) = (A\alpha_i, \alpha_j)$,代入上式立刻得到:
$$ a_{ij} = a_{ji} $$
即矩阵的第 $i$行$j$列元素等于第$j$行$i$列元素,矩阵$A$ 必为实对称矩阵。证毕。
3. 谱定理(Spectral Theorem)的终极本征解构
线性代数中最核心的定理之一:
$$ \text{对称变换 } A \iff \text{在任意一组标准正交基下的矩阵为实对称矩阵} \iff \exists \text{ 标准正交基 } \{\beta_1, \dots, \beta_n\} \text{ 使得算子完全对角化} $$
即存在一组完美的空间基底,使得:
$$ A\beta_1 = \lambda_1 \beta_1, \quad A\beta_2 = \lambda_2 \beta_2, \quad \dots, \quad A\beta_n = \lambda_n \beta_n $$
批判性视阈与几何总结:
我们现在可以将正交变换与对称变换放在统一的宏观视角下进行对比批判:
正交变换($\det(A)=1$):在实数域内顽固地拒绝提供充足的实特征向量,它倾向于把全空间解耦为一个个二维的旋转平面(复特征值 $e^{\pm i\theta}$),强迫空间发生刚性旋转。
对称变换($A^T=A$):极度顺从地在全空间中提供了一整组由彼此垂直的实特征向量 ${\beta_1, \dots, \beta_n}$构成的骨架。在它治下的空间没有旋转、没有手性的改变,只有沿着这$n$个正交主轴方向上纯粹的、干净的线性拉伸$\lambda_i$。这也是二次型标准化、图像处理中主成分分析(PCA)以及多元统计物理的数理本源。
矩阵指数映射、反对称算子的李代数内核与高维正交矩阵分解
一、 从无穷小旋转到刚性旋转:矩阵指数映射的动机
在经典微积分中,常数 $a$ 的指数函数可以展开为泰勒级数:$e^a = 1 + a + \frac{1}{2!}a^2 + \frac{1}{3!}a^3 + \dots$。如果我们把自变量从“数”提升为“算子(矩阵)”,这种代数形式依然具有极强的空间拓扑威力。
构想的动机与第一性原理:
想象你在空间中做极微小的动力学旋转。在无穷小时刻,向量 $X$的变化率(速度)与自身垂直,这可以用一个反对称矩阵$C$(即 $C^T = -C$)来刻画:$\frac{dX}{dt} = CX$。
这是一个经典的线性微分方程组,其形式解正是 $X(t) = e^{Ct}X(0)$。因为物体的运动是刚性的,不改变向量长度,这意味着随着时间流动,算子 $e^C$ 必须能够完美保持内积,即它必须演化为一个正交矩阵。矩阵指数映射就是连接“无穷小旋转速度(李代数)”与“宏观旋转状态(李群)”的天然桥梁。
1. 严格代数性质证明
【引理证明】若 $C$ 是实反对称矩阵($C^T = -C$),证明 $e^C$ 必为第一类正交矩阵($\det(e^C) = 1$)。
正交性证明:
首先利用级数展开考察 $e^C$ 的转置:
$$ \left(e^C\right)^T = \left(I + C + \frac{1}{2!}C^2 + \frac{1}{3!}C^3 + \dots\right)^T = I + C^T + \frac{1}{2!}(C^T)^2 + \frac{1}{3!}(C^T)^3 + \dots $$
代入反对称条件 $C^T = -C$:
$$ \left(e^C\right)^T = I + (-C) + \frac{1}{2!}(-C)^2 + \frac{1}{3!}(-C)^3 + \dots = I - C + \frac{1}{2!}C^2 - \frac{1}{3!}C^3 + \dots = e^{-C} $$
由于 $C$与$-C$ 显然满足乘法交换律($C(-C) = (-C)C$),根据指数矩阵性质:
$$ \left(e^C\right)^T \cdot e^C = e^{-C} \cdot e^C = e^{-C + C} = e^0 = I $$
由此断定,$e^C$ 必然是一个正交矩阵。
行列式为 1 的证明:
利用重要的矩阵迹与行列式恒等式 $\det(e^A) = e^{\text{Tr}(A)}$:
对于反对称矩阵 $C$,其主对角线元素必然全为 $0$(因为 $c_{ii} = -c_{ii} \implies c_{ii} = 0$),所以其迹(Trace)为 $0$:
$$ \text{Tr}(C) = 0 \implies \det(e^C) = e^{\text{Tr}(C)} = e^0 = 1 $$
这就证明了 $e^C$不仅正交,而且保手性,它必然属于第一类正交矩阵$SO(n)$。
二、 二维微元旋转的代数重组
为了看清指数映射的运作细节,我们先在二维平面 $\mathbb{R}^2$ 上进行基准计算。定义最基本的二维反对称矩阵:
$$ C = \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} $$
为了求 $e^C$,我们需要计算 $C$ 的高阶幂次。通过简单的矩阵乘法,我们发现其幂次呈现出优美的周期性:
$$ C^2 = \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} = \begin{bmatrix} -\theta^2 & 0 \\ 0 & -\theta^2 \end{bmatrix} = -\theta^2 I $$
$$ C^3 = C^2 \cdot C = -\theta^2 C, \qquad C^4 = (C^2)^2 = \theta^4 I, \qquad C^5 = \theta^4 C \dots $$
将这个周期规律带入指数泰勒级数展开式,并按照 $I$和$C$ 进行分块归类重组:
$$ e^C = I + C + \frac{1}{2!}C^2 + \frac{1}{3!}C^3 + \frac{1}{4!}C^4 + \frac{1}{5!}C^5 + \dots $$
$$ e^C = I + C + \frac{1}{2!}(-\theta^2 I) + \frac{1}{3!}(-\theta^2 C) + \frac{1}{4!}(\theta^4 I) + \frac{1}{5!}(\theta^4 C) + \dots $$
$$ e^C = \left(1 - \frac{\theta^2}{2!} + \frac{\theta^4}{4!} - \dots\right)I + \left(1 - \frac{\theta^2}{3!} + \frac{\theta^4}{5!} - \dots\right)\frac{1}{\theta}C $$
动机的汇聚:
观察上面这两组括弧内的无穷级数,它们恰好就是正弦和余弦函数的麦克劳林展开式!
$$ \left(1 - \frac{\theta^2}{2!} + \frac{\theta^4}{4!} - \dots\right) = \cos\theta $$
$$ \left(\theta - \frac{\theta^3}{3!} + \frac{\theta^5}{5!} - \dots\right) = \sin\theta $$
因此,代入回矩阵形式:
$$ e^C = \cos\theta \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} + \frac{\sin\theta}{\theta} \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} $$
结论: 纯代数展开的最终重组结果,与我们前面由几何推导出的平面纯旋转矩阵 完全一致。这表明,反对称矩阵中的参数 $\theta$ 经由指数映射后,完美转化为宏观空间中的旋转角度。
三、 三维罗德里格斯公式的代数本源解构
一个更具工程和物理意义的范例:
设 3 阶反对称矩阵 $C = \begin{bmatrix} 0 & a & b \ -a & 0 & c \ -b & -c & 0 \end{bmatrix}$,证明 $e^C$给出的是绕向量$\mathbf{n} = [c \quad -b \quad a]^T$方向的右手系空间旋转,且旋转角度为$\theta = \sqrt{a^2+b^2+c^2}$。
1. 寻找旋转不动的骨架(本征结构分析)
根据前面的定理,三维纯旋转必定有一个旋转轴(特征值为 1 对应的特征向量)。我们直接验证向量 $\beta_1 = \begin{bmatrix} c \ -b \ a \end{bmatrix}$在反对称算子$C$ 下的表现:
$$ C \beta_1 = \begin{bmatrix} 0 & a & b \\ -a & 0 & c \\ -b & -c & 0 \end{bmatrix} \begin{bmatrix} c \\ -b \\ a \end{bmatrix} = \begin{bmatrix} 0 - ab + ab \\ -ac + 0 + ac \\ -bc + bc + 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix} = 0 \cdot \beta_1 $$
步骤的几何动机:
算子 $C$作用在$\beta_1$上结果为$0$(即 $\beta_1$属于内核$\ker(C)$)。这绝非巧合!
当我们将 $C$ 作用到矩阵指数映射时:
$$ e^C \beta_1 = \left(I + C + \frac{1}{2!}C^2 + \dots\right)\beta_1 = I\beta_1 + 0 + 0 + \dots = \beta_1 $$
这强有力地证明了,向量 $\beta_1$在经历了宏观变换$e^C$ 后依然死死保持不动。这直接宣告了:$\beta_1 = [c \quad -b \quad a]^T$ 就是该空间旋转的绝对旋转轴。
2. 空间降维解耦与投影重组
为了求出其余两个正交截面的旋转响应,我们将 $\beta_1$标准化为单位向量,并利用施密特正交化将其扩充为全空间的右手标准正交基${\beta_1, \beta_2, \beta_3}$。构造过渡矩阵 $P = [\beta_1 \quad \beta_2 \quad \beta_3]$。
在这组相互垂直的骨架下,算子 $C$ 满足:
$$ P^T C P = \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & -\theta \\ 0 & \theta & 0 \end{bmatrix} \quad (\text{其中 } \theta = \sqrt{a^2+b^2+c^2}) $$
这是因为在三维欧氏空间中,由于 $C$ 的反对称性与内积保持,除去零特征值方向,其余二维补空间上必定表现为一个纯粹的微元旋转。此时对其进行高阶幂次运算,由于分块对角线的独立性,平方后项变为:
$$ (P^T C P)^2 = \begin{bmatrix} 0 & 0 & 0 \\ 0 & -\theta^2 & 0 \\ 0 & 0 & -\theta^2 \end{bmatrix} $$
由此可以得到三维特征多项式的零化消去律:$C^3 = -\theta^2 C$(这就是大名鼎鼎的罗德里格斯算子化简核心)。
最终,利用相似矩阵的指数性质 $e^C = e^{P (P^T C P) P^T} = P e^{P^T C P} P^T$,我们可以把在 $\beta_1$ 基底下的对角化分块完美写出:
$$ e^{P^T C P} = \begin{bmatrix} e^0 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} $$
最终定性: 任何 3 阶实反对称矩阵的指数,在空间拓扑上都天然对应一个绕着特定轴(由非零元素交叉决定的法线)旋转了模长 $\sqrt{a^2+b^2+c^2}$ 角度的刚性旋转。
四、 高维正交变换的“准对角化”谱系全景
当我们站在宏观的最高处,跨越二维和三维的限制,看向任意有限维欧氏空间 $\mathbb{R}^n$ 中的正交变换时,最后一个定理为我们展现了一幅极其震撼的空间结构画卷:
【正交变换谱定理】
若 线性变换 $A$是一个广义正交变换(在任意标准正交基下满足$A^T A = I$),则必然存在全空间的一组标准正交基,使得算子 $A$ 在该基底下的矩阵可以被完美地拆解为以下互不干扰的准对角分块形态:
$$ \mathbf{M_{\text{standard}} = \begin{bmatrix}
\pm 1 & & & & & \
& \pm 1 & & & & \
& & \ddots & & & \
& & & \begin{matrix} \cos\theta_1 & -\sin\theta_1 \ \sin\theta_1 & \cos\theta_1 \end{matrix} & & \
& & & & \ddots & \
& & & & & \begin{matrix} \cos\theta_m & -\sin\theta_m \ \sin\theta_m & \cos\theta_m \end{matrix}
\end{bmatrix}}
$$
批判性视阈与总结
这个定理是线性代数刚性几何理论的终极交响乐。它为我们揭示了高维刚性运动极为简洁的底层本质:
一维不变子空间的退化:矩阵最左上角的一排 $\pm 1$,代表空间中存在若干个一维的直线。如果是 $+1$,代表该直线上的向量在变换后定格不动(如同三维旋转的轴);如果是 $-1$,代表这条线上的向量在变换后原路镜面反转。
二维独立旋转面的解耦:矩阵右下角那一个个互不相交的 $2 \times 2$三角矩阵块,代表高维空间可以被完美切削为一个个彼此正交的二维平面。在每一个独立的平面内部,空间都在各自悄悄地绕着原点旋转着不同的角度$\theta_j$。
无耦合的几何图景:这意味着,无论多高维度的刚性物体的复杂运动(比如高维超球体的翻转),在数学本质上,都可以被解耦为一堆彼此垂直的轴向拉伸反转,与一堆彼此垂直的二维平面旋转的独立叠加。高维空间的运动在这一刻失去了杂乱,只剩下代数分块的极致对称与宁静。
正交变换全景、极值估计、PCA 几何最优化与奇异值分解(SVD)
一、 刚性算子的终极拼图:Cartan-Dieudonné 定理
在前面,我们探讨了二维和三维空间的正交变换,并发现它们可以被完美解耦为“纯旋转”和“镜面反射”的组合。那么在一般的 $n$ 维欧氏空间中,刚性变换的几何边界究竟在哪里?
Cartan-Dieudonné 定理(卡当-迪厄多内定理)**:
定理内容:$n$维欧氏空间中的任何正交变换,在几何上都可以表示为不超过$n$ 个镜面反射变换的乘积(复合)。
构想的动机与第一性原理:
镜面反射是改变空间定向(手性)的最基本刚性动作。该定理表明,镜面反射是构成一切高维刚性运动的“几何原子”。一个由连续运动产生的纯旋转(行列式为 1),在代数本质上不过是偶数个反射原子的多米诺骨牌式叠加。这不仅简化了高维正交群 $O(n)$ 的生成元结构,也为计算机图形学利用反射算子(如 Householder 变换)去逼近任意旋转矩阵提供了终极的理论合法性。
二、 算子的能量界限:瑞利商与二次型的取值估计
当我们从保持长度不变的“正交算子”,转向负责拉伸空间的“实对称算子(实对称矩阵 $A$)”时,一个最核心的问题是:一个向量 $X$在该算子作用下的“能量变动幅度”(即 quadratic form 二次型$X^T AX$)最大能有多大?最小能有多小?
实对称矩阵二次型极值定理:
对任意非零列向量 $X \in \mathbb{R}^n$,其二次型受到算子极大与极小特征值的绝对控制:
$$ \lambda_n \|X\|^2 \le X^T AX \le \lambda_1 \|X\|^2 \quad \left( \iff \lambda_n \le \frac{X^T AX}{X^T X} \le \lambda_1 \right) $$
其中 $\lambda_1, \lambda_n$分别是实对称矩阵$A$的最大与最小特征值。等号成立当且仅当$X$ 落在相应的特征子空间内。
步骤与推导的几何动机:
为什么它的最值恰好是特征值?因为根据谱定理,实对称矩阵 $A$拥有$n$个彼此垂直的单位特征向量骨架$P = [\beta_1, \dots, \beta_n]$,满足 $P^T AP = \text{diag}(\lambda_1, \dots, \lambda_n)$。
若我们在这一套由特征向量构成的“主轴坐标系”下观察向量 $X$(记新坐标为 $Y = P^T X$,且 $|Y|^2 = |X|^2$),二次型被瞬间剥离了交叉项,化为纯粹的平方和:
$$ X^T AX = Y^T (P^T AP) Y = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \dots + \lambda_n y_n^2 $$
动机显化:我们要让这个和在总长度 $\sum y_i^2 = |X|^2$固定的情况下最大化。最贪心的策略显然是将所有分量(能量)全部集中在最大系数$\lambda_1$对应的坐标轴上(即令$y_1 = |X|, y_{2 \dots n} = 0$);同理,最保守的策略是全部推给 $\lambda_n$。这就极其直观地证明了二次型极值的边界,并在几何上宣告了:实对称算子对空间造成的能量拉伸,其最极端、最敏锐的方向正是特征向量的方向。
三、 主成分分析(PCA):几何降维的最佳子空间寻找
在数据科学和高维统计物理中,我们经常面对大量带有噪声的高维样本点 $A = [\alpha_1 \quad \alpha_2 \quad \dots \quad \alpha_n]$。我们希望能找到一个低维(例如 $k$维)的子空间$V_k = \langle \beta_1, \dots, \beta_k \rangle$,将所有样本点投影到这个子空间上,以达到“既压缩了维度,又尽可能不丢失原始信息”的目的。
1. 投影平方和最大化 vs 垂直距离平方和最小化
设 $\beta_1, \dots, \beta_k$ 是我们希望寻找的子空间的一组标准正交基。
一个样本点 $\alpha$ 在该子空间上的投影向量可以表示为:$B_k B_k^T \alpha = \sum_{i=1}^k (\beta_i^T \alpha)\beta_i$。
样本点到该子空间的垂直距离向量(即丢失的信息)则为:$(I - B_k B_k^T)\alpha$。
根据勾股定理,对任何样本点有:
$$ \|\text{原始向量 } \alpha\|^2 = \|\text{投影向量 } B_k B_k^T \alpha\|^2 + \|\text{垂直距离 } (I - B_k B_k^T)\alpha\|^2 $$
由于全体样本点的总能量 $\sum |\alpha_i|^2 = \text{tr}(A A^T)$ 是一个一成不变的常数,要想让丢失的信息(垂直距离平方和)最小,代数上完美等价于让留存的信息(投影平方和)最大化。
2. 谱定理的终极介入
当我们将所有样本点的投影平方和写成矩阵形式时,它变成了解析式:$\sum_{j=1}^k \beta_j^T (AA^T) \beta_j$。
注意!这里的 $AA^T$ 天然是一个实对称矩阵(散布矩阵/协方差矩阵),它正蓄势待发地等待谱定理的解构。
为了最大化这个表达式,根据瑞利商极值估计,我们应该贪心地依次选取 $AA^T$的前$k$个最大的特征值$\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_k$ 对应的单位特征向量作为基底。
此时,留下的最大投影能量为 $\sum_{i=1}^k \lambda_i$。对应的最小垂直距离平方和(误差)自然就是剩下的废弃能量:
$$ \text{Min Error} = \text{tr}(AA^T) - \sum_{i=1}^k \lambda_i = \lambda_{k+1} + \dots + \lambda_m $$
这在第一性原理上完美推导出了 PCA 的数学本源:所谓主成分,在几何上就是协方差矩阵 $AA^T$ 的特征向量;而那些被丢弃的微小特征值之和,恰好就是降维后无法挽回的几何投影损失。
四、 奇异值分解(SVD):线性映射的空间拉伸全景图
实对称矩阵相似对角化的谱定理固然完美,但它要求矩阵必须是“方阵”,且必须满足对称性。如果面对一个普通的 $m \times n$实矩阵$A$(例如将 $n$维输入空间映射到$m$ 维输出空间的广义线性变换),我们还能找到类似的宁静几何图景吗?
最终给出全线性代数最通用的本征重组——奇异值分解(SVD):
定理内容:每个 $m \times n$的实矩阵$A$ 都可以被完美写成分块复合形态:
$$ A = P S Q^T $$
其中 $P$是$m$阶正交矩阵,$Q$是$n$阶正交矩阵。$S$是$m \times n$形状的广义对角矩阵,其对角线元素$\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0$称为 奇异值(Singular Values),它们是$A A^T$(或 $A^T A$)正特征值的算术平方根。
1. SVD 的三阶段几何动力学破译
从右往左阅读算子复合 $A X = P (S (Q^T X))$,任何一个一般线性映射都可以被优雅地肢解为三个物理行为:
$Q^T$(旋转/反射):在输入空间 $\mathbb{R}^n$中做一次刚性坐标转换。这组新基底${ \gamma_1, \gamma_2 }$是$A^T A$ 的特征向量(定义域的标准正交骨架)。
$S$(独立沿轴拉伸):在变换的中间阶段,不发生任何倾斜和旋转,仅仅将向量的分量沿着对应的标准轴方向进行单纯的、暴力的线性拉伸,拉伸倍数即为奇异值 $\sigma_i$。
$P$(旋转/反射):最后,将拉伸后的结果在输出空间 $\mathbb{R}^m$中再次做一次刚性转换,落脚到最终的标准正交基底${ \beta_1, \beta_2 }$上(这组基底是$A A^T$ 的特征向量)。
2. 终极几何图景:超球体向超椭球体的蜕变
SVD 的物理本质:
线性映射 $X \mapsto AX$ 究竟对世界做了什么?
它将输入空间 $\mathbb{R}^n$ 中的一个无定向的单位超球体($|X| \le 1$),在经历空间映射后,拉伸并重组为了输出空间 $\mathbb{R}^m$ 中的一个超椭球体。
该超椭球体长短不一的各个半轴的几何长度,恰好就是这组非零奇异值 $\sigma_i$;
该超椭球体各个主轴的空间物理走向,恰好由输出空间的正交基底向量 $\beta_i = \frac{1}{\sigma_i}A\gamma_i$ 唯一决定。
共轭变换与正规矩阵
在欧氏空间中,将几何或代数操作抽象为线性变换后,我们常常需要寻找某种“镜像”或“平衡”的操作。这种在内积结构下与原变换达成对称平衡的映射,便是共轭变换。
一、 共轭变换的定义与内积平衡
动机
在线性代数中,内积 $\langle \alpha, \beta \rangle$赋予了空间度量结构。若有一个线性变换$\mathcal{A}$ 作用于其中一个向量上,我们自然会问:能否将这个变换“转移”到另一个向量上,而保持内积的结果不变?
由于图片中使用的内积符号为 $(\alpha, \beta)$,我们在本篇笔记中沿用此符号。
为了实现这种变换的转移,我们需要引入一个新变换 $\mathcal{A}^*$。
定义
设 $\mathcal{A}$是欧氏空间$V$上的线性变换。若存在另一个线性变换$\mathcal{A}^*$满足:
$$ (\mathcal{A}\alpha, \beta) = (\alpha, \mathcal{A}^*\beta), \quad \forall \alpha, \beta \in V $$
则称 $\mathcal{A}^*$是$\mathcal{A}$ 的共轭变换(adjoint operator)。
典型示例
正交变换 $U$:保持内积不变,即 $(U\alpha, U\beta) = (\alpha, \beta)$。若移项对照定义,其共轭变换为逆变换:$U^* = U^{-1}$。
对称变换 $A$:其自身在内积中就是对称的,因此其共轭变换为本身:$A^* = A$。
二、 有限维欧氏空间下共轭变换的矩阵表达与唯一性证明
动机
在抽象空间中,满足内积等式的变换 $\mathcal{A}^*$ 是否一定存在?如果存在,它是否唯一?在有限维空间中,线性变换可以通过矩阵完全刻画。因此,通过引入一组标准正交基,我们可以将抽象的变换转移到具体的矩阵运算上。在矩阵的乘法中,转置操作恰好扮演了“将左侧矩阵的作用转移到右侧”的角色。
1. 坐标与内积的矩阵化准备
设 $\beta_1, \dots, \beta_n$是有限维欧氏空间$V$的一组标准正交基。线性变换$\mathcal{A}$和其候选共轭变换$\mathcal{A}^*$在该基下的矩阵分别记为$\mathbf{A}$和$\mathbf{B}$,即:
$$ \mathcal{A}(\beta_1 \dots \beta_n) = (\beta_1 \dots \beta_n)\mathbf{A} $$
$$ \mathcal{A}^*(\beta_1 \dots \beta_n) = (\beta_1 \dots \beta_n)\mathbf{B} $$
任意向量 $\alpha, \beta$在该基下的坐标列向量分别为$\mathbf{X}, \mathbf{Y}$。由于是在标准正交基下,空间的内积可以直接转化为坐标的向量内积(即标准内积):
$$ (\alpha, \beta) = \mathbf{X}^T \mathbf{I} \mathbf{Y} = \mathbf{X}^T \mathbf{Y} $$
此时,将线性变换 $\mathcal{A}$作用于$\alpha$,其对应的坐标变为 $\mathbf{A}\mathbf{X}$。我们分别写出等式两端的矩阵形式:
左端项:$(\mathcal{A}\alpha, \beta) = (\mathbf{A}\mathbf{X})^T \mathbf{I} \mathbf{Y} = \mathbf{X}^T \mathbf{A}^T \mathbf{Y}$
右端项:$(\alpha, \mathcal{A}^*\beta) = \mathbf{X}^T \mathbf{I} (\mathbf{B}\mathbf{Y}) = \mathbf{X}^T \mathbf{B} \mathbf{Y}$
2. 严密的双向推导
有了上述矩阵化的准备,共轭变换的存在性、唯一性与矩阵表达可以一气呵成地推导出来:
$$ \mathcal{A}^* \text{ 是 } \mathcal{A} \text{ 的共轭变换} $$
$$ \iff (\mathcal{A}\alpha, \beta) = (\alpha, \mathcal{A}^*\beta), \quad \forall \alpha, \beta \in V $$
$$ \iff \mathbf{X}^T \mathbf{A}^T \mathbf{Y} = \mathbf{X}^T \mathbf{B} \mathbf{Y}, \quad \forall \mathbf{X}, \mathbf{Y} \in \mathbb{R}^n $$
$$ \iff \mathbf{B} = \mathbf{A}^T $$
结论
由于在一组确定的基底下,线性变换与它对应的矩阵是一一对应的。而对于任意矩阵 $\mathbf{A}$,其转置矩阵 $\mathbf{A}^T$存在且唯一,由此可直接推出:在有限维欧氏空间上,任何线性变换$\mathcal{A}$的共轭变换$\mathcal{A}^*$都存在且唯一。在同一标准正交基下,若$\mathcal{A}$的矩阵为$\mathbf{A}$,则 $\mathcal{A}^*$的矩阵就是$\mathbf{A}^T$。
三、 实正规变换与正规矩阵
动机
既然每个线性变换 $\mathcal{A}$都伴随着一个共轭变换$\mathcal{A}^*$,那么这两者在复合运算时是否满足交换律?我们知道矩阵乘法一般是不满足交换律的($\mathbf{A}\mathbf{A}^T \neq \mathbf{A}^T\mathbf{A}$)。但如果它们恰好可以交换,这类变换在结构上会展现出极佳的对称美与谱性质(可正交对角化)。我们称这类行为良好的变换为“正规”变换。
定义:实正规变换
若线性变换 $\mathcal{A}$与其共轭变换$\mathcal{A}^*$ 可交换,即:
$$ \mathcal{A}\mathcal{A}^* = \mathcal{A}^*\mathcal{A} $$
则称 $\mathcal{A}$ 是实正规变换。
- 例子:正交变换 $U$(因 $UU^{-1}=U^{-1}U$)、对称变换 $A$(因 $AA=AA$)以及反对称变换 $A$(其共轭为 $-A$,满足 $A(-A)=(-A)A$),这些变换都是实正规变换的特例。
定义:正规矩阵
若实矩阵 $\mathbf{A}$ 满足:
$$ \mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A} $$
则称 $\mathbf{A}$ 是实正规矩阵。
命题
线性变换 $\mathcal{A}$是实正规变换,当且仅当$\mathcal{A}$ 在标准正交基下的矩阵是实正规矩阵。
证明
根据前面算子与矩阵的对应关系,在标准正交基下,变换的复合对应矩阵的乘法。
$$ \mathcal{A}\mathcal{A}^* = \mathcal{A}^*\mathcal{A} \iff \mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A} $$
证毕。
实正规矩阵的结构定理与实对角化延伸
在复数域上,根据谱定理,任何正规矩阵都可以通过酉矩阵对角化。然而,当我们限制在实数域 $\mathbb{R}$ 上时,由于实多项式的特征根可能是复数(以共轭复根形式出现),实正规矩阵往往无法直接对角化为实对角矩阵。
为了在实数域内完美刻画正规矩阵的几何结构,我们需要借助不变子空间将其分解为一种高度规整的“块对角”标准形。
一、 核心基础:不变子空间与正交补的封闭性
动机
研究一个复杂线性变换的常用策略是“分而治之”——寻找空间中更小的、在变换作用下保持封闭的子空间。如果这类子空间的正交补同样保持封闭,我们就能将整个空间作正交直和分解,从而将大矩阵拆解为相互独立的块。
定义:不变子空间
设 $\mathbf{A} \in \mathbf{M}_n(\mathbb{R})$。若 $\mathbb{R}^n$的子空间$W$ 满足:
$$ \mathbf{A}W \subseteq W \quad (\text{即对任意 } w \in W, \text{ 都有 } \mathbf{A}w \in W) $$
则称 $W$是$\mathbf{A}$ 的不变子空间。
证明 1):实矩阵总有 1 维或 2 维不变子空间
步骤与几何动机:
线性变换的特征多项式 $f(\lambda) = \det(\lambda \mathbf{I} - \mathbf{A})$ 是一组实系数多项式。根据代数基本定理,它在复数域内一定有解。
情况一:存在实特征根 $\lambda_0 \in \mathbb{R}$
此时存在对应的实特征向量 $v \in \mathbb{R}^n$使得$\mathbf{A}v = \lambda_0 v$。显然,由 $v$张成的 1 维子空间$W = \text{span}{v}$满足$\mathbf{A}W \subseteq W$。
情况二:不存在实特征根,特征根全为共轭复根 $\alpha \pm i\beta$($\beta \neq 0$)
设 $\mathbf{A}(x + iy) = (\alpha + i\beta)(x + iy)$,其中 $x, y \in \mathbb{R}^n$。展开复数等式并分离实虚部可得:
$$ \begin{cases} \mathbf{A}x = \alpha x - \beta y \\ \mathbf{A}y = \beta x + \alpha y \end{cases} $$
这说明 $\mathbf{A}$作用在实向量$x$和$y$上后的结果,依然落在由${x, y}$ 张成的空间内。因此,$W = \text{span}{x, y}$ 构成了一个 2 维不变子空间。
证明 2):若 $W$是实正规矩阵$\mathbf{A}$的不变子空间,则$W^\perp$也是$\mathbf{A}$ 的不变子空间
步骤与代数动机:
对于一般的矩阵,不变子空间的正交补不一定具有封闭性。但“正规性”($\mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A}$)提供了一种强对称性。我们要证明 $\mathbf{A}(W^\perp) \subseteq W^\perp$,只需证明对任意 $u \in W^\perp$和$w \in W$,都有 $(\mathbf{A}u, w) = 0$。
根据共轭变换的内积性质:
$$ (\mathbf{A}u, w) = (u, \mathbf{A}^T w) $$
由于 $u \in W^\perp$,若能证明 $\mathbf{A}^T w \in W$,则上述内积必然为 0。因此,问题转化为证明:“若 $W$是$\mathbf{A}$的不变子空间,则$W$也是$\mathbf{A}^T$ 的不变子空间”。
引理: 若 $\mathbf{A}$为正规矩阵,则 对任意向量$x$,$|\mathbf{A}x| = |\mathbf{A}^T x|$。
证明: $|\mathbf{A}x|^2 = (\mathbf{A}x, \mathbf{A}x) = (x, \mathbf{A}^T\mathbf{A}x) = (x, \mathbf{A}\mathbf{A}^T x) = (\mathbf{A}^T x, \mathbf{A}^T x) = |\mathbf{A}^T x|^2$。
利用该引理,可以通过构造算子的迹或限制算子的特征多项式证明 $\mathbf{A}^T w \in W$。既然 $\mathbf{A}^T w \in W$,则对于 $u \in W^\perp$,必有 $(u, \mathbf{A}^T w) = 0$。
从而 $(\mathbf{A}u, w) = 0 \implies \mathbf{A}u \in W^\perp$,即 $W^\perp$也是$\mathbf{A}$ 的不变子空间。
二、 实正规矩阵的谱分解定理(块对角化)
动机
结合上述性质 1)和 2),我们可以对全空间进行递归的正交直和分解:$\mathbb{R}^n = W_1 \oplus W_2 \oplus \dots \oplus W_k$。在每个 1 维不变子空间上,变换表现为实数缩放;在每个 2 维不变子空间上,变换表现为一个不可约的 $2 \times 2$ 矩阵。将这些基底正交规范化后,便得到了实正规矩阵的标准形。
定理 3):实正规矩阵的标准形
若 $\mathbf{A}$是实正规矩阵,则存在正交矩阵$\mathbf{P}$,使得:
$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} \lambda_1 & & & & & \\ & \ddots & & & & \\ & & \lambda_s & & & \\ & & & \begin{matrix} a_1 & -b_1 \\ b_1 & a_1 \end{matrix} & & \\ & & & & \ddots & \\ & & & & & \begin{matrix} a_r & -b_r \\ b_r & a_r \end{matrix} \end{bmatrix} \mathbf{P}^T $$
这里 $\lambda_1, \dots, \lambda_s \in \mathbb{R}$是$\mathbf{A}$ 的实特征值;$a_i \pm ib_i$($b_i \neq 0$)是 $\mathbf{A}$ 的共轭复特征值。
其中 $2 \times 2$的分块$\begin{bmatrix} a_i & -b_i \ b_i & a_i \end{bmatrix}$ 在几何上对应了一个旋转加上一个均匀缩放。
三、 特殊正规矩阵的退化标准形
根据矩阵自身的代数约束,上述通式中的各个分块将受到进一步的限制。以下三种经典矩阵都是正规矩阵的特例:
定理 4):若 $\mathbf{A}$ 是正交矩阵
动机: 正交矩阵满足 $\mathbf{A}\mathbf{A}^T = \mathbf{I}$,这意味着它不仅能交换,而且保持所有向量的模长不变(保距性)。
对 1 维块的约束: 必须满足 $\lambda_i^2 = 1 \implies \lambda_i = \pm 1$。
对 2 维块的约束: 其特征值模长必须为 1,即 $a_i^2 + b_i^2 = 1$。因此我们可以令 $a_i = \cos\theta_i, b_i = \sin\theta_i$。
标准形展现为:
$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} \pm 1 & & & & \\ & \ddots & & & \\ & & \pm 1 & & \\ & & & \begin{matrix} \cos\theta_1 & -\sin\theta_1 \\ \sin\theta_1 & \cos\theta_1 \end{matrix} & \\ & & & & \ddots \end{bmatrix} \mathbf{P}^T $$
几何意义: 任何实正交变换都可以分解为若干个一维轴向的镜面反射($\pm 1$)与若干个二维平面内的纯旋转(旋转矩阵)的正交组合。
定理 5):若 $\mathbf{A}$ 是反对称实矩阵
动机: 反对称矩阵满足 $\mathbf{A}^T = -\mathbf{A}$,因此 $\mathbf{A}\mathbf{A}^T = -\mathbf{A}^2 = \mathbf{A}^T\mathbf{A}$。其特征值必须为纯虚数。
对 1 维块的约束: 唯一的实纯虚数只有 $0$,故 $\lambda_i = 0$。
对 2 维块的约束: 特征值 $a_i \pm ib_i$必须是纯虚数$\implies a_i = 0$。
标准形展现为:
$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} 0 & & & & \\ & \ddots & & & \\ & & 0 & & \\ & & & \begin{matrix} 0 & -b_1 \\ b_1 & 0 \end{matrix} & \\ & & & & \ddots \end{bmatrix} \mathbf{P}^T $$
几何意义: 反对称矩阵在 1 维不变子空间上完全被投影压缩为 0,而在 2 维空间内则表现为相互正交的“漩涡式”两两交错的反对称分块。