笔记13.带度量的线性空间
第十章 带度量的线性空间
来源:线代 A II 讲义,第 203–357 页
整理者注:本章是整门线代课程中理论深度最大、应用最广的一章。它把前面学过的内积、正交、对称变换等概念推广到复数域,并由此引出酉矩阵、Hermite 矩阵、正规矩阵对角化等一系列核心结论。学完这一章,你对”矩阵的本质”会有质的飞跃。
目录
1. 为什么要推广到复空间?——动机与直觉
1.1 一个看似简单的问题
同学们,在上一章我们学了欧氏空间——配上内积的实线性空间。内积给了我们长度、角度、正交这些几何概念,一切都很美好。
但现在我们进入复数域了。自然的问题是:在复线性空间上,如何定义向量的长度?
最直接的想法是:照搬实空间的公式呗。对
但这立刻出问题了。 考虑向量
1.2 正确的方向
问题出在哪?出在我们忘了复数的”模”是怎么定义的。一个复数
所以复向量的长度应该定义为:
老师点评:这一步看似 trivial,但它是整章的起点。从这里出发,我们会发现复空间上的”内积”不能是双线性的,而必须是共轭双线性的(sesquilinear)。这是复分析与量子力学中内积的标准形式,理解这一点对你后续学量子力学非常有帮助——量子态的内积
就是共轭双线性的。
2. 共轭双线性函数与度量矩阵
2.1 定义
定义(共轭双线性函数):在复线性空间
对任意
注意:这里有一个约定问题。数学界和物理界对”哪个变量共轭线性”有相反的约定。数学通常让第二个变量共轭线性(如上),物理(Dirac 记号)通常让第一个变量共轭线性。两种约定本质等价,但混用会出符号错误,务必保持一致。
2.2 度量矩阵:坐标化
和上一章对称双线性函数完全类似,选定基之后,共轭双线性函数也可以用矩阵来表示。
设
其中
老师讲解:注意这里的公式是
,不是上一章的 。差别就在 上——因为第二个变量是共轭线性的,所以坐标要取共轭。这个细节在后续推导中反复出现,一定要养成条件反射。
结论:固定基底后,共轭双线性函数与复矩阵(度量矩阵)一一对应。
2.3 基变换公式
定理:若
证明:设向量在
故新度量矩阵为
3. Hermite 内积与 Hermite 正定矩阵
3.1 从共轭双线性到内积
并不是所有共轭双线性函数都能当”内积”用。我们需要两个额外条件:
定义(Hermite 内积):若共轭双线性函数
-
共轭对称:
, -
正定:
, 则称 为复(Hermite)内积。
老师点评:条件 1 看起来有点奇怪——为什么不要求
?因为如果是共轭双线性的,强求对称性会导致 未必是实数,那就没法定义长度了。共轭对称性恰好保证了 ,即 是实数,再配合正定性, 就有意义了。
3.2 Hermite 矩阵
定义:复矩阵
若 Hermite 矩阵
老师讲解:Hermite 矩阵就是实对称矩阵在复数域的自然推广。实对称矩阵满足
,Hermite 矩阵满足 。当你把”转置”换成”共轭转置”,实对称理论中绝大多数结论都可以原封不动地推广过来。这是本章最重要的思维模式。
3.3 Hermite 记号
引入记号
- (注意顺序反转,和 同理)
3.4 内积 正定矩阵
命题:共轭双线性函数
证明:设
共轭对称
正定性:
老师点评:这个等价性极其重要。它意味着:研究复内积的问题,可以完全转化为研究 Hermite 正定矩阵的问题。矩阵工具有什么,我们就用什么。这是”坐标化”思维的威力。
4. Cholesky 分解:正定矩阵的”开方”
4.1 Hermite 正定矩阵的等价刻画
定理:设
-
复正定( 对所有 ) -
的特征值都 3. ,其中 是上三角可逆复矩阵 -
的顺序主子式都 > 老师讲解:这四个条件在实对称正定矩阵中我们已经见过。复的情形证明思路完全一样,只是把转置 换成共轭转置 。条件 (2) 让你用特征值判断正定性;条件 (3) 是 Cholesky 分解,有计算意义;条件 (4) 是 Sylvester 准则,只检查主子式就行,不用求特征值。
4.2 Cholesky 分解
定理(Cholesky 分解):
其中
4.3 构造性证明
动机:我们要把
以
- - -
通过成对高斯消去,
老师点评:Cholesky 分解在数值计算中极其重要。求解正定线性方程组
时,用 Cholesky 分解 ,然后先后解 和 (两次回代),比 Gauss 消元快一倍且数值稳定性更好。金融工程中的 Monte Carlo 模拟、机器学习中的高斯过程,都大量用到 Cholesky 分解。
5. 酉空间:复版欧氏空间
5.1 定义
定义:配有 Hermite 内积的复线性空间称为酉空间(Unitary space)。
在酉空间中:
-
长度:
-
正交:
-
距离:
5.2 Cauchy-Schwarz 不等式
这是整个度量理论的基石。
定理:
证明:设
展开(注意共轭线性):
关键步骤:取
即
5.3 三角不等式
定理:
证明:
开方即得。
5.4 夹角与标准正交基
定义
注意:在复空间中,
实际上是实平面 与 之间的最小夹角。这和实空间的直觉略有不同。
标准正交基:两两正交的单位向量构成的基。
5.5 标准酉空间 配标准内积 ,构成 维标准酉空间。 是标准正交基 矩阵 满足 。
6. 酉矩阵与酉群
6.1 定义与等价条件
定义:复方阵
2. 3. 4. 的列向量构成 的标准正交基
老师讲解:酉矩阵就是”复版正交矩阵”。正交矩阵
满足 ,酉矩阵 满足 。把 换成 ,一切照旧。酉矩阵的列是标准正交的,行也是标准正交的(因为 也成立)。
6.2 特征值性质 ★
定理:
-
酉矩阵的特征值
满足 (全在单位圆上) -
Hermite 矩阵的特征值都是实数
-
反 Hermite 矩阵(
)的特征值都是纯虚数或 0
证明(酉矩阵):设
由
6.3 酉群
老师点评:酉群在物理学中无处不在。
描述自旋, 是量子色动力学的规范群, 是量子电动力学的规范群。标准模型的规范群是 。学好酉矩阵,对理解现代物理有直接帮助。
7. Fourier 矩阵与快速傅里叶变换 FFT
7.1 Fourier 矩阵
傅立叶变换:
老师讲解:FFT 可能是本章工程应用价值最高的内容。没有 FFT,就没有现代数字信号处理、没有 MP3 压缩、没有 WiFi 通信(OFDM)、没有 MRI 成像。FFT 把 DFT 的复杂度从
降到 ,这是计算机科学的里程碑。
7.2 FFT 的核心思想:分治
关键观察:
利用这个性质,把
其中
于是计算
其中
老师讲解:这就是”蝶形运算”(butterfly operation)。一个
点的 DFT 被分解为两个 点的 DFT 加上 次复数乘法。递归下去:
展开(
7.3 复杂度对比
|
|---|---|---|---|
|
|
|
老师点评:当
时,直接计算需要 次乘法——即使每秒算 次(exascale 超算),也要算 30 年。而 FFT 只需要 500 万次,几毫秒就完了。这就是算法的力量。
8. 酉变换与 Hermite 变换
8.1 酉变换
定义:酉空间上保持内积的线性变换
定理:以下等价:
-
是酉变换 -
把标准正交基映为标准正交基 -
在标准正交基下的矩阵是酉矩阵
证明:设
老师讲解:酉变换就是”复版正交变换”。正交变换保持实内积,酉变换保持复内积。几何上,酉变换是复空间的”刚性运动”——不改变长度和夹角。
8.2 Hermite 变换
定义:若
定理:
定理:Hermite 矩阵的特征值都是实数。
老师点评:Hermite 变换在量子力学中对应可观测量(observable)。量子力学的公理之一就是:每一个物理可观测量对应一个 Hermite 算子,测量结果就是该算子的特征值(必须是实数,所以要求 Hermite)。这就是为什么 Hermite 矩阵的特征值都是实数这条定理如此重要——它保证了量子力学测量的结果确实是实数。
9. 共轭变换:伴随算子的复数版
9.1 定义
定义:设
则称
例子:
-
酉变换
的共轭变换是 (因为 ) -
Hermite 变换
的共轭变换是 自身
9.2 存在唯一性
定理:有限维酉空间上,任何线性变换
证明:设
故
老师讲解:这个证明的核心思想是”矩阵由它作用在所有向量上的效果唯一确定”。
对所有 。这是线性代数中反复使用的技巧。
10. 正规变换与正规矩阵的谱分解 ★核心定理★
10.1 什么是正规变换?
定义:若
对应地,
老师讲解:为什么叫”正规”(normal)?因为它是”最一般的好行为矩阵”。酉矩阵、Hermite 矩阵、反 Hermite 矩阵、甚至实对称矩阵,全都是正规矩阵的特例。正规矩阵是这些”好矩阵”的统一推广。
验证:
-
酉矩阵
: ✓ -
Hermite 矩阵
: ✓ -
反 Hermite 矩阵
: ✓
10.2 ★主定理★:正规矩阵的酉对角化
定理:
老师点评:这是本章最重要的定理,没有之一。它告诉我们:任何正规矩阵都可以用酉相似变换对角化。对比实对称矩阵的正交对角化
,这里只是把 换成 , 换成 。但这个推广的威力巨大——它涵盖了酉矩阵、Hermite 矩阵、以及所有它们的组合。
10.3 完整证明
证明(数学归纳法):
基础:
归纳步骤:假设对
第一步:
第二步:将
第三步:计算
其中
第四步(关键):取共轭转置:
由
比较左上角元素:
而
老师讲解:这是证明的灵魂步骤。为什么
必须是 0?因为 的正规性强制了这一点。如果 不是正规的, 一般不为 0,我们就得不到分块对角形式,归纳法就走不下去了。这就是为什么只有正规矩阵才能酉对角化。
第五步:现在
第六步:令
10.4 推论
推论 1:
推论 2:
推论 3:
推论 4:
老师讲解:这四个推论是”一把钥匙开四把锁”。同一个谱分解框架,通过限制对角元的性质,就区分了四类重要矩阵。考试和科研中,遇到这四类矩阵中的任何一类,第一反应应该是”它可以酉对角化”。
10.5 不变子空间的正交补
推论:设
证明:取标准正交基使
由
故
老师点评:这个结论在实对称矩阵中也有对应(对称变换的不变子空间的正交补仍是不变子空间),但在一般矩阵中不成立。正规性是保证这一点的最弱条件。这个性质在同时对角化理论和谱定理的证明中反复使用。
11. 正交空间与辛空间:更一般的度量结构
11.1 定义
设
-
对称 是正交空间 -
反对称( ) 是辛空间
老师讲解:到这里,我们跳出了”内积必须正定”的限制。正交空间和辛空间中的”内积”不一定正定,甚至可能不定(有正有负)。这引出了更丰富的几何结构。
11.2 Minkowski 空间
在
这就是狭义相对论中的时空内积!注意符号是
保持该内积的线性变换称为洛伦兹变换:
老师点评:Minkowski 空间是正交空间但不是欧氏空间(内积不定)。它的等距群(洛伦兹群)是
,不是 。这是物理学中正交空间最经典的例子。
11.3 Witt 消去定理
定理:设
老师讲解:Witt 定理说的是:子空间上的等距映射可以”扩展”到整个空间。这在分类理论中是基础工具——它保证了正交(辛)空间的分类只依赖于一些不变量(如符号差),而不依赖于具体的基的选取。
12. 正交投影:从理论到计算
12.1 已知标准正交基的情形
设
其中
推导:对任意
12.2 已知一般基的情形
设
老师讲解:这个公式是最小二乘法的核心。在统计学和机器学习中,线性回归
的正规方程解 ,本质上就是投影公式。 就是设计矩阵 的列空间上的投影矩阵(hat matrix)。
12.3 正交投影的刻画
-
列满秩 是到 的正交投影 -
是到 的正交投影 -
, 是沿 向 的投影 -
实对称且 是到 的正交投影
老师点评:条件 4 是关键——幂等(
)保证是投影,对称( )保证是正交投影。两者缺一不可。
12.4 求正交补的基
例:
13. Perron-Frobenius 定理:非负矩阵的灵魂
13.1 背景
元素全为正数的矩阵叫正矩阵,元素
13.2 Perron-Frobenius 定理(正矩阵版)
对于正方阵
-
有正特征值 (最大正特征值),代数重数为 1,且有正特征向量 -
其余特征值的模都
3. 与 有相同的最大正特征值 称为 的 Frobenius 根(谱半径)。
13.3 非负矩阵版
对非负方阵,结论类似但特征向量只是非负(不一定严格正)。
老师点评:Perron-Frobenius 定理是 Google 的 PageRank 算法的理论基础。Web 链接矩阵是非负矩阵,PageRank 向量就是它的 Frobenius 根对应的特征向量。没有这个定理,我们就无法保证 PageRank 的存在性和唯一性。此外,在 ergodic 马尔可夫链中,平稳分布也是由这个定理保证的。
14. 矩阵范数与特征值估计
14.1 诱导范数
实矩阵
即最大奇异值。
若
14.2 范数性质
-
( ) -
-
三角不等式:
-
次乘性:
5.
14.3 二次型的取值范围
对实对称
等号成立
老师讲解:这个不等式是理解对称矩阵特征值几何意义的核心。
的值被最大和最小特征值”夹”在中间。这在优化理论中是 Rayleigh 商的基础。
14.4 例题:Hilbert 矩阵的特征值上界
例:
解:记
由
老师点评:Hilbert 矩阵是著名的病态矩阵——虽然正定,但条件数随
指数增长。这个例子展示了用范数不等式估计特征值上界的标准技巧:分解矩阵、分别估计、合并。
15. Penrose 广义逆与 SVD
15.1 Penrose 广义逆
对任意复矩阵
若
15.2 SVD 与广义逆
若
老师讲解:SVD 是线性代数中最强大的分解工具。特征值分解只对可逆/正规矩阵有效,但 SVD 对任何矩阵都成立。SVD 的应用包括:数据压缩(PCA)、图像去噪、推荐系统(矩阵补全)、求解超定/欠定方程组。
通过 SVD 构造,把非零奇异值求倒数、零奇异值保持为零,这是最自然的”广义逆”定义。
15.3 MATLAB 数值计算
-
[U, D] = eig(A):特征值分解 -
[P, S, Q] = svd(A):奇异值分解 -
[Q, R] = qr(B):QR 分解 -
rref(B):行最简形
注意:Jordan 标准型数值不稳定,计算前需用
sym转为符号矩阵。这是因为 Jordan 块对矩阵元素的小扰动极其敏感——任意矩阵都可以被任意接近的、可对角化的矩阵逼近,所以数值计算中 Jordan 块会”散开”。
16. Cauchy Interlacing 与 Courant-Fischer Min-Max 定理 ★研究级工具★
16.1 Cauchy Interlacing 原理
定理:
老师讲解:“Interlacing”就是”交错”——主子阵的特征值”穿插”在原矩阵特征值之间。这个定理在图论(图的子图特征值)、随机矩阵理论、数值线性代数中都有重要应用。
16.2 Weyl 定理
老师点评:Weyl 定理描述了”扰动的特征值如何移动”。如果
是小扰动, 不会偏离 太多——最多偏离 ( 的谱宽)。这是数值分析中特征值稳定性的理论基础。
16.3 ★Courant-Fischer Min-Max 定理★
定理:实对称
老师点评:这是研究级的工具。它给出了特征值的变分刻画——
不是某个特定向量的 Rayleigh 商,而是所有 维子空间上 Rayleigh 商最大值的最小值。这个定理是有限元方法、谱图理论、量子力学变分原理的共同基础。
证明思路:记
由维数公式,
故
老师讲解:证明的核心是维数论证——两个”够大”的子空间一定有非零交集。这是线性代数中最优美的论证技巧之一,在泛函分析和代数拓扑中也反复出现。
16.4 应用:半正定矩阵的特征值比较
定理:若
证明:
证明:
对
17. 三维旋转的矩阵表示:Rodrigues 公式
17.1 问题设定
设
17.2 几何推导
将任意
记
旋转后:
17.3 化为矩阵形式
定义叉积矩阵
代入并整理:
利用
老师讲解:Rodrigues 公式在计算机图形学、机器人学、航空航天中是基础工具。任何 3D 旋转都可以用”轴+角”表示,Rodrigues 公式给出了从轴角到矩阵的显式转换。
17.4 矩阵指数表示
更简洁地:
为什么? 因为
利用
老师点评:
这个记号不是形式上的——矩阵指数 对任何矩阵都收敛。若 (Jordan 分解),则 。这在微分方程理论中是核心工具: 的解是 。
17.5 从旋转矩阵恢复轴和角
由
-
是对称的 -
是反对称的
故
- 从 的非零元素恢复
18. 综合习题选编
习题 1:刚体运动的螺旋结构(Chasles 定理)
设
提示:这是 Chasles 定理。先证
的线性部分是第一类正交矩阵(有实特征值 1,对应旋转轴),再分析平移分量。
习题 2:钝角向量个数
证明:
提示:考虑把这些向量”提升”到
中,利用线性无关性论证。
习题 3:Hadamard 乘积保持半正定性 ★
设
解:
对每个固定的
习题 4:子空间距离公式
设
提示:
习题 5:正规变换的谱投影
设
证明:
-
是向 的正交投影 -
(对任意幂级数 ) -
存在多项式
使
提示:
是 Lagrange 插值多项式。 的特征值是 (在 处取值)。正规性保证不同特征值的特征子空间正交,所以 是正交投影。
总结:本章的知识脉络
复向量的长度问题
↓
共轭双线性函数 → 度量矩阵 → 基变换公式 P^T A P̄
↓
加上共轭对称 + 正定 → Hermite 内积 ↔ Hermite 正定矩阵
↓
Cholesky 分解 A = P^T P̄
↓
酉空间 = 配 Hermite 内积的复线性空间
├── Cauchy-Schwarz → 三角不等式 → 夹角 → 标准正交基
├── 酉矩阵 (U^H U = I) → 酉群 U(n), SU(n)
├── Fourier 矩阵 → FFT (O(n²) → O(n log n))
├── 酉变换(保内积)↔ 酉矩阵
├── Hermite 变换(自伴随)↔ Hermite 矩阵
├── 共轭变换 A* ↔ A^H
└── ★正规变换 (AA* = A*A) → 酉对角化 A = UDU^H
├── 推论:酉/Hermite/反Hermite 的谱分解
└── 推论:不变子空间的正交补仍不变
延伸:
├── 正交空间 / 辛空间(不定度量)→ Minkowski 空间 → Witt 定理
├── 正交投影 → 最小二乘法
├── Perron-Frobenius → 非负矩阵的谱理论
├── 矩阵范数 → 特征值估计
├── SVD → Penrose 广义逆
├── Courant-Fischer Min-Max → 特征值变分刻画
└── Rodrigues 公式 → 三维旋转的矩阵指数表示
最后的忠告:这一章的内容是后续学习数值线性代数、量子力学、信号处理、机器学习的共同基础。正规矩阵的酉对角化、SVD、Courant-Fischer 定理,这三个工具在你未来的学习和研究中会反复出现。务必做到:看到 Hermite 矩阵就想到”特征值是实数、可酉对角化”;看到酉矩阵就想到”特征值在单位圆上、保持内积”;看到正定矩阵就想到”Cholesky 分解、所有顺序主子式 > 0”。