LOADING

加载过慢请开启缓存 浏览器默认开启

Logic の 博客

一小块凝固的时间

16.含参积分

2026/6/4

含参变量积分的连续性定理

1. 核心问题与动机

在微积分中,我们经常遇到形式为 $h(y) = \int_{a}^{b} f(x, y) , dx$的函数。一个非常自然的疑问是:如果被积函数$f(x, y)$是连续的,那么积分出来的函数$h(y)$ 是否也是连续的?

如果 $h(y)$连续,意味着对于任意的$y_0$,都有 $\lim_{y \to y_0} h(y) = h(y_0)$。将 $h(y)$ 的定义代入,这个等式实际上就是:

$$ \lim_{y \to y_0} \int_{a}^{b} f(x, y) \, dx = \int_{a}^{b} \left( \lim_{y \to y_0} f(x, y) \right) \, dx $$

这便是极限号($\lim$)与积分号($\int$)的交换问题。为了确保这种交换的合法性,我们需要严格的数学证明。

2. 定理陈述

定理:设函数 $f(x, y)$在闭矩形区域$R = [a, b] \times [c, d]$ 上连续(Continuous),则由积分定义的新函数

$$ h(y) = \int_{a}^{b} f(x, y) \, dx $$

在区间 $[c, d]$上也是连续的,即$h(y) \in C[c, d]$。

3. 证明思路与严格推导

动机:要证明 $h(y)$在$y_0$处连续,我们需要控制当$y$靠近$y_0$时,两者积分值的差值$|h(y) - h(y_0)|$能够任意小。由于积分区间是固定的,如果我们能让被积函数的差值$|f(x, y) - f(x, y_0)|$ 整体缩小,就能通过积分把误差控制住。

这里遇到的障碍是,$x$是在$[a, b]$上变动的。幸运的是,二元连续函数在紧集(闭矩形)上具有一致连续性(Uniform Continuity),这意味着误差的控制可以做到“与$x$ 的具体取值无关”。

严密推导步骤

  1. 引入一致连续性:因为 $f(x, y)$在闭矩形$[a, b] \times [c, d]$ 上连续,由康托尔定理(Cantor’s Theorem),它必在整个区域上一致连续

  2. 定量刻画误差:由一致连续性的定义,对任意给定的 $\varepsilon > 0$,必然存在一个只与 $\varepsilon$有关的$\delta > 0$,使得当两个点 $(x_1, y_1)$和$(x_2, y_2)$的距离小于$\delta$时,它们的函数值之差小于$\varepsilon$。

    即:当 $|(x_1, y_1) - (x_2, y_2)| < \delta$时,有$|f(x_1, y_1) - f(x_2, y_2)| < \varepsilon$。

  3. 特化到参数 $y$:我们保持 $x$坐标相同,仅让$y$逼近$y_0$。对于任意的 $y \in [c, d]$,只要 $|y - y_0| < \delta$,那么对区间 $[a, b]$上的所有$x$,都有:

$$ |f(x, y) - f(x, y_0)| < \varepsilon $$

  1. 放大积分值的差:利用积分的线性性质和绝对值不等式,我们来估计目标差值:

$$ |h(y) - h(y_0)| = \left| \int_{a}^{b} f(x, y) \, dx - \int_{a}^{b} f(x, y_0) \, dx \right| $$

$$ \le \int_{a}^{b} |f(x, y) - f(x, y_0)| \, dx $$

  1. 最终控制:将步骤 3 的一致连续性估计代入上式:

$$ \le \int_{a}^{b} \varepsilon \, dx = \varepsilon (b - a) $$

由于 $b - a$是一个常数,当$\varepsilon \to 0$ 时,$\varepsilon(b-a) \to 0$。

这完成了证明,说明在整体连续的条件下,极限号与积分号的交换是安全的:

$$ \lim_{y \to y_0} \int_{a}^{b} f(x, y) \, dx = \int_{a}^{b} \left( \lim_{y \to y_0} f(x, y) \right) \, dx $$

经典反例——当连续性条件退化时

1. 动机

数学的严谨性不仅体现在“什么时候可以交换”,更体现在“为什么不满足条件就不能交换”。上面的定理要求 $f(x, y)$在包含极限点在内的闭区域上连续。如果参数$y$的极限点(比如$y \to 0$)会导致函数在某个局部失去连续性,那么极限号和积分号还敢轻易交换吗?

下面这个反例,正是为了展示盲目交换符号所带来的灾难。

2. 反例的构造

考虑定义在 $x \in [0, 1]$且$y > 0$(逐步逼近 $0$)的含参变量积分:

$$ h(y) = \int_{0}^{1} \frac{x}{y^2} e^{-\frac{x^2}{y^2}} \, dx $$

我们的目标是考察当 $y \to 0$ 时,这个函数的行为。

3. 两种路径的碰撞(推导与对比)

我们要对比两个完全不同的运算顺序:

  • 路径 A(先求极限,后积分):假设我们可以把极限塞进积分号内部。

  • 路径 B(先完成积分,后求极限):严格按照数学定义,先算出 $h(y)$ 的解析式,再看它的极限。

路径 A:先求极限

步骤:我们先不看积分,单独考察被积函数 $f(x, y) = \frac{x}{y^2} e^{-\frac{x^2}{y^2}}$当$y \to 0$ 时的逐点极限。

  • 当 $x > 0$时:令$t = \frac{x^2}{y^2}$。当 $y \to 0$ 时,$t \to +\infty$。

    原式可以看作 $\frac{1}{x} \cdot t e^{-t}$。根据洛必达法则(L’Hôpital’s rule),指数爆炸增长的速度远快于线性增长,因此 $\lim_{t \to +\infty} t e^{-t} = 0$。

  • 当 $x = 0$时:分子直接为$0$,所以函数值恒为 $0$,极限自然也是 $0$。

结论:在 $x \in [0,1]$的每一个点上,函数的极限都是$0$:

$$ \lim_{y \to 0} f(x, y) = 0 $$

如果我们盲目交换符号,就会得到:

$$ \text{错误猜测} = \int_{0}^{1} \left( \lim_{y \to 0} f(x, y) \right) \, dx = \int_{0}^{1} 0 \, dx = \mathbf{0} $$

路径 B:先求积分(真实的 $h(y)$)

步骤:我们老老实实先计算这个定积分。注意到被积函数的结构非常凑巧,极其适合使用换元法(Substitution Rule)

观察到:$d\left(-\frac{x^2}{y^2}\right) = -\frac{2x}{y^2} , dx$,这意味着 $\frac{x}{y^2} , dx = -\frac{1}{2} d\left(-\frac{x^2}{y^2}\right)$。

我们直接进行不定积分的配凑:

$$ \int \frac{x}{y^2} e^{-\frac{x^2}{y^2}} \, dx = -\frac{1}{2} \int e^{-\frac{x^2}{y^2}} \, d\left(-\frac{x^2}{y^2}\right) = -\frac{1}{2} e^{-\frac{x^2}{y^2}} $$

现在带入上下限 $[0, 1]$:

$$ h(y) = \left[ -\frac{1}{2} e^{-\frac{x^2}{y^2}} \right]_{x=0}^{x=1} = \left( -\frac{1}{2} e^{-\frac{1}{y^2}} \right) - \left( -\frac{1}{2} e^{0} \right) $$

$$ h(y) = \frac{1}{2} \left( 1 - e^{-\frac{1}{y^2}} \right) $$

现在,我们对积分出来的真实 $h(y)$求$y \to 0$ 的极限:

当 $y \to 0$ 时,$\frac{1}{y^2} \to +\infty$,因此 $-\frac{1}{y^2} \to -\infty$,导致 $e^{-\frac{1}{y^2}} \to 0$。

$$ \lim_{y \to 0} h(y) = \frac{1}{2} (1 - 0) = \mathbf{\frac{1}{2}} $$

4. 结论与批判性总结

我们将两者的结果放在一起对比:

  • 先求极限再积分(路径 A):$0$

  • 先积分再求极限(路径 B,真实值):$\frac{1}{2}$

关键结论:$0 \neq \frac{1}{2}$,极限号与积分号在这里不能交换。

为什么会这样?(本质剖析)

如果我们画出 $f(x, y)$随着$y$变小时的函数图像,会发现一个现象:虽然在每一个固定的$x > 0$处,函数值最终都会塌陷到$0$;但在靠近 $x=0$的右侧,函数会鼓起一个巨大的“峰值”。随着$y$越接近$0$,这个山峰会变得越窄、越高。

尽管山峰越来越窄,但它下面所包裹的面积却始终顽固地趋近于 $\frac{1}{2}$。这种由于局部行为剧烈异动导致整体积分不趋于 $0$ 的现象,在高等数学中被称为非一致收敛(Non-uniform Convergence)。它精确地证明了:没有一整块闭区域上的连续性(或一致收敛性)做担保,微积分的符号交换就会失效。

顺序交换(累次积分)

对一个定义在矩形区域 $R = [a, b] \times [c, d]$上的连续函数$f(x, y)$,我们先对 $x$积分再对$y$积分,与先对$y$积分再对$x$ 积分,结果是否等价?

1. 概念引入与定义

设 $f(x, y) \in C([a, b] \times [c, d])$,即 $f$在该闭矩形上连续。我们定义一个一元函数$h(y)$,它通过对 $x$施加积分来消去$x$ 变元:

$$ h(y) = \int_{a}^{b} f(x, y) \, dx $$

2. 核心定理(积分交换律)

若 $f(x, y)$连续,则$h(y)$在$[c, d]$ 上同样连续,且满足:

$$ \int_{c}^{d} h(y) \, dy = \int_{c}^{d} \left( \int_{a}^{b} f(x, y) \, dx \right) dy = \int_{a}^{b} \left( \int_{c}^{d} f(x, y) \, dy \right) dx $$

3. 构造动机与直观理解

把二维平面画成一个精细的网格,计算黎曼和 $\sum_{i=1}^n \sum_{j=1}^m f(x_i, y_j) \Delta x_i \Delta y_j$。这个矩阵式的网格图形暴露了积分交换的本质。

当我们面对一个三维空间中的曲顶柱体体积时,积分其实就是一种“切片求和”的艺术。

  • 先 $x$后$y$:意味着我们先沿着与 $x$轴平行的方向,把矩形区域切成一条条细长的“栅栏”,算出每条栅栏下的截面积$h(y)$,随后再把这些截面积沿着 $y$ 轴的走向累加起来。

  • 先 $y$后$x$:则是把切片的方向旋转了90度,先算出平行于 $y$轴的截面积,再沿着$x$ 轴累加。

因为网格是有限的,无论是先加行还是先加列,小方柱的总和显然相等。当网格无限细分趋向于微分时,这种离散的交换就自然地流淌成了连续积分符号的交换。置信度评级:高。因为连续性保证了黎曼和的极限唯一性。

微分与积分符号的交换

含参变量积分的实用工具——如何对一个积分结构进行求导。

核心定理(Leibniz积分法则)

设 $f(x, y) \in C([a, b] \times [c, d])$,并且其关于参变量 $y$的偏导数$f_y(x, y)$ 在该区域内同样连续。

若定义 $h(y) = \int_{a}^{b} f(x, y) , dx$,则 $h(y)$ 可导,且其导数可以直接穿透到积分号内部:

$$ h'(y) = \frac{\partial}{\partial y} \left( \int_{a}^{b} f(x, y) \, dx \right) = \int_{a}^{b} \frac{\partial}{\partial y} f(x, y) \, dx $$

构造动机:为什么要这么做?

在传统的微积分中,导数(微观的变化率)和积分(宏观的累加)是一对互逆的算子。但当导数作用于“参变量” $y$,而积分作用于“积分变量” $x$ 时,这两个算子由于作用在不同的维度上,彼此之间产生了一种平行关系。

我们希望知道,当整个大环境(参变量 $y$)发生微小扰动时,积分所代表的总体量是如何随之变化的。如果能将求导符号“扔进”积分号内部,我们就可以先观察每一个微小局部随 $y$ 的变化率,然后再将这些变化率积攒起来。

证明如下,
利用变上限积分作为桥梁,巧妙规避了直接用定义进行极限 $\Delta y \to 0$ 逼近的繁琐过程

证明步骤与逻辑链条

第一步:利用微积分基本定理进行函数重构

因为 $f_y(x, y)$连续,根据微积分基本定理,我们可以把原函数$f(x, y)$表达为它的偏导数在区间$[c, y]$ 上的积分加上一个初值。即:

$$ f(x, y) = \int_{c}^{y} f_y(x, s) \, ds + f(x, c) $$

注:这里引入了辅助变量 $s$作为积分哑元,而$y$成为了上限。为了方便理解,可以将其类比为一元微积分中的$F(x) = \int_a^x F’(t)dt + F(a)$。

第二步:将重构后的表达式代入 $h(y)$

我们将上述 $f(x, y)$的积分表达式代入原函数$h(y) = \int_{a}^{b} f(x, y) , dx$ 中:

$$ h(y) = \int_{a}^{b} \left( \int_{c}^{y} f_y(x, s) \, ds + f(x, c) \right) dx $$

第三步:线性拆分积分项

利用积分的线性性质,将内部的加法拆开为两个独立的积分:

$$ h(y) = \int_{a}^{b} \left( \int_{c}^{y} f_y(x, s) \, ds \right) dx + \int_{a}^{b} f(x, c) \, dx $$

第四步:运用第一部分的“积分顺序交换定理”

仔细观察第一项 $\int_{a}^{b} \left( \int_{c}^{y} f_y(x, s) , ds \right) dx$。由于 $f_y$的连续性,它完全符合我们在第一部分论证的交换律。我们将$x$和$s$ 的积分顺序进行对调:

$$ h(y) = \int_{c}^{y} \left( \int_{a}^{b} f_y(x, s) \, dx \right) ds + \int_{a}^{b} f(x, c) \, dx $$

第五步:两边对 $y$ 求导

现在,我们对等式两边的变量 $y$ 进行求导:

$$ \frac{d}{dy} h(y) = \frac{d}{dy} \left[ \int_{c}^{y} \left( \int_{a}^{b} f_y(x, s) \, dx \right) ds \right] + \frac{d}{dy} \left[ \int_{a}^{b} f(x, c) \, dx \right] $$

我们来逐项分析右边的导数:

  1. 对于第二项 $\int_{a}^{b} f(x, c) , dx$,由于积分限 $a, b$以及函数内部的$c$全都是常数,因此该积分项关于$y$ 而言是一个纯粹的常数,其导数直接归零:$\frac{d}{dy}[\text{常数}] = 0$。

  2. 对于第一项,它完美契合变上限积分求导公式(即板书最右下角写下的提示:$\left(\int_a^x f(t)dt\right)’ = f(x)$)。当外层的 $\frac{d}{dy}$遇到以$y$为上限的积分号$\int_{c}^{y}$时,两者相互抵消,内部被积函数中的$s$被自动替换为$y$。

由此,我们最终优雅地落地:

$$ h'(y) = \int_{a}^{b} f_y(x, y) \, dx $$

即:

$$ \frac{d}{dy} \left( \int_{a}^{b} f(x, y) \, dx \right) = \int_{a}^{b} \frac{\partial}{\partial y} f(x, y) \, dx $$

证毕。

例1:巧妙构造二元积分交换顺序

1. 问题重现

求定积分:

$$ \int_{0}^{1} \frac{x^2 - x}{\ln x} \, dx $$

2. 步骤动机与构造思路

直接求解该积分的困难在于分母上的 $\ln x$。在求导时,我们知道对幂函数 $x^y$关于$y$求导会产生$\ln x$(即 $\frac{\partial}{\partial y}(x^y) = x^y \ln x$)。反过来,如果我们能把 $\frac{x^2 - x}{\ln x}$看作是某个函数对$y$积分后的结果,就可以将$\ln x$ 消去。

因此,我们的动机是:利用微积分基本定理,将分子分母的组合“还原”为一个关于新变量 $y$ 的积分,从而将一元积分扩展为二元积分,再通过交换积分顺序完成化简。

3. 完整推导过程

第一步:无中生有,将一元函数转化为变上限积分

观察分子 $x^2 - x$,它可以看作是 $x^y$在$y=1$到$y=2$ 处的差值。利用微积分基本定理:

$$ \frac{x^2 - x}{\ln x} = \frac{1}{\ln x} \left[ x^y \right]_{y=1}^{y=2} = \frac{1}{\ln x} \int_{1}^{2} \frac{\partial}{\partial y}(x^y) \, dy = \frac{1}{\ln x} \int_{1}^{2} x^y \ln x \, dy $$

由于 $\ln x$与积分变量$y$无关,可以消去分母的$\ln x$:

$$ \frac{x^2 - x}{\ln x} = \int_{1}^{2} x^y \, dy $$

第二步:代入原积分,构造二元重积分

将上式放回原积分中,得到一个累次积分:

$$ \int_{0}^{1} \frac{x^2 - x}{\ln x} \, dx = \int_{0}^{1} \left( \int_{1}^{2} x^y \, dy \right) dx $$

第三步:交换积分顺序(核心步骤)

由于被积函数 $f(x,y) = x^y$在区域$[0, 1] \times [1, 2]$上是连续的,满足积分交换律。我们将先$y$后$x$的积分顺序改为先$x$后$y$

$$ = \int_{1}^{2} \left( \int_{0}^{1} x^y \, dx \right) dy $$

第四步:先对 $x$ 进行积分

此时对 $x$积分时,$y$ 被视为常数。这是一个简单的幂函数积分:

$$ \int_{0}^{1} x^y \, dx = \left[ \frac{1}{y+1} x^{y+1} \right]_{x=0}^{x=1} = \frac{1}{y+1} $$

第五步:最后对 $y$ 进行积分

将结果代回外层积分:

$$ = \int_{1}^{2} \frac{1}{y+1} \, dy = \left[ \ln(y+1) \right]_{1}^{2} = \ln 3 - \ln 2 = \ln \frac{3}{2} $$

最终答案: $\ln \frac{3}{2}$

例2:利用积分符号内求导求解参数积分(Poisson积分变体)

1. 问题重现

设含参变量积分:

$$ I(r) = \int_{0}^{\pi} \ln(1 - 2r\cos x + r^2) \, dx $$

求当 $r=1$时的积分值$I(1)$。

2. 步骤动机与构造思路

直接对该式关于 $x$积分极其困难。由于式中包含一个显式的参数$r$,如果我们对参数 $r$ 求导,利用莱布尼茨法则将求导符号穿透到积分号内部,对数的导数会变成有理分式,或许能够大大简化被积函数。

因此,我们的动机是:先求导函数 $I’(r)$的值,通过观察导数的行为来反推原函数$I(r)$ 的结构。

3. 完整推导过程

第一步:在积分号内关于参数 $r$ 求导

假定 $(x, r) \in [0, \pi] \times [0, c]$(其中$c < 1$)。由莱布尼茨公式:

$$ I'(r) = \int_{0}^{\pi} \frac{\partial}{\partial r} \ln(1 - 2r\cos x + r^2) \, dx = \int_{0}^{\pi} \frac{2r - 2\cos x}{1 - 2r\cos x + r^2 } \, dx $$

第二步:计算导数积分(寻找 $I’(r)$ 的值)

1. 拆分积分项与化简动机

为了让被积函数的形式更易于处理,我们先把分子稍微凑成与分母相关的结构:

$$ 2r - 2\cos x = \frac{1}{r}(2r^2 - 2r\cos x) = \frac{1}{r}(1 - 2r\cos x + r^2 + r^2 - 1) $$

这样拆分后,原积分可以拆成两部分:

$$ I'(r) = \frac{1}{r} \int_{0}^{\pi} 1 \, dx + \frac{r^2 - 1}{r} \int_{0}^{\pi} \frac{1}{1 - 2r\cos x + r^2} \, dx $$

$$ I'(r) = \frac{\pi}{r} + \frac{r^2 - 1}{r} \int_{0}^{\pi} \frac{1}{1 - 2r\cos x + r^2} \, dx $$

现在的核心任务,就是解决右边这个典型的三角有理积分:

$$ J = \int_{0}^{\pi} \frac{1}{1 - 2r\cos x + r^2} \, dx $$

2. 运用万能公式求解 $J$

第一步:引入代换

设 $t = \tan \frac{x}{2}$。

当 $x$从$0$变到$\pi$时,$t$从$0$变到$+\infty$。

由三角公式可知:

$$ \cos x = \frac{1 - t^2}{1 + t^2}, \quad dx = \frac{2}{1 + t^2} \, dt $$

第二步:代入积分式

将上述代换放进积分 $J$ 中:

$$ J = \int_{0}^{+\infty} \frac{1}{1 - 2r\left(\frac{1 - t^2}{1 + t^2}\right) + r^2} \cdot \frac{2}{1 + t^2} \, dt $$

分子分母同乘以 $(1 + t^2)$ 以消除繁分式:

$$ J = \int_{0}^{+\infty} \frac{2}{(1 + r^2)(1 + t^2) - 2r(1 - t^2)} \, dt $$

将分母按照 $t$ 的幂次进行合并展开:

$$ \text{分母} = (1 + r^2 + 2r)t^2 + (1 + r^2 - 2r) = (1 + r)^2 t^2 + (1 - r)^2 $$

所以积分化为:

$$ J = \int_{0}^{+\infty} \frac{2}{(1 + r^2 + 2r)t^2 + (1 - r)^2} \, dt = \int_{0}^{+\infty} \frac{2}{(1 + r)^2 t^2 + (1 - r)^2} \, dt $$

第三步:提取系数并使用标准积分公式

这是一个标准的反正切($\arctan$)积分形式。为了套用 $\int \frac{1}{a^2 u^2 + b^2}du = \frac{1}{ab}\arctan(\frac{au}{b})$,我们对应找出系数:

这里 $a = 1 + r$, $b = 1 - r$(因为 $r \in [0, 1)$,所以 $1 - r > 0$)。

$$ \begin{aligned} J &= 2 \cdot \left[ \frac{1}{(1 + r)(1 - r)} \arctan\left( \frac{1 + r}{1 - r} t \right) \right]_{0}^{+\infty} \\ &= \frac{2}{1 - r^2} \left( \lim_{t \to +\infty} \arctan\left( \frac{1 + r}{1 - r} t \right) - \arctan(0) \right) \end{aligned} $$

当 $t \to +\infty$时,由于$\frac{1 + r}{1 - r} > 0$,括号内部趋于 $+\infty$,因此 $\arctan(+\infty) = \frac{\pi}{2}$。

$$ J = \frac{2}{1 - r^2} \cdot \left( \frac{\pi}{2} - 0 \right) = \frac{\pi}{1 - r^2} $$

3. 送回原式,见证奇迹的消除

现在我们将计算出的 $J = \frac{\pi}{1 - r^2}$代回最初的$I’(r)$ 表达式中:

$$ \begin{aligned} I'(r) &= \frac{\pi}{r} + \frac{r^2 - 1}{r} \cdot J \\ &= \frac{\pi}{r} + \frac{r^2 - 1}{r} \cdot \left( \frac{\pi}{1 - r^2} \right) \end{aligned} $$

注意看第二项的系数, $\frac{r^2 - 1}{1 - r^2} = -1$,因此:

$$ I'(r) = \frac{\pi}{r} - \frac{\pi}{r} = 0 $$

结论:经过严密的代数运算,我们消去了所有的三角函数,最终证明了在区间 $r \in (0, 1)$内,导数$I’(r)$ 确实毫无悬念地恒等于 0

$$ I'(r) \equiv 0, \quad r \in [0, 1) $$

(动机解释:导数恒为 0 意味着函数 $I(r)$在该区间内是一个常数函数,不随$r$ 的变化而变化。)

第三步:确定常数的值(利用特殊值法)

既然 $I(r) \equiv I(0)$对所有$r \in [0, 1)$都成立,我们只需要把$r=0$ 代入原积分式来锁定这个常数:

$$ I(0) = \int_{0}^{\pi} \ln(1 - 0 + 0) \, dx = \int_{0}^{\pi} \ln(1) \, dx = \int_{0}^{\pi} 0 \, dx = 0 $$

由此得出:

$$ I(r) \equiv 0, \quad \forall r \in [0, 1) $$

但是这并不能直接推到 $I(1)$ ,因为此时对应了瑕点,具体就需要研究带参数的瑕积分了。

含参变量广义积分:一致收敛性与判别法

一、 认知桥梁:积分与级数的平行宇宙

运用平移类比思想,理解含参变量广义积分的钥匙,就藏在函数项级数里。

概念维度 函数项级数 含参变量广义积分
局部截断 部分和: $S_n(y) = \sum_{k=1}^{n} a_k(y)$ 变上限积分:$S_A(y) = \int_{a}^{A} f(x, y) , dx$
极限逼近 令项数无穷: $\lim_{n \to \infty} S_n(y) = S(y)$ 令上限无穷:$\lim_{A \to +\infty} S_A(y) = S(y)$

构造动机

既然部分和 $S_n(y)$在$n \to \infty$时有“逐点收敛”与“一致收敛”之分,那么当截断上限$A \to +\infty$时,截断积分$S_A(y)$逼近理想目标$S(y)$ 的速度同样存在分化。为了让积分和导数算子在无穷区间上也能无伤穿透,我们必须精确定义什么是“一致收敛”。

二、 严密数学定义:$\varepsilon-A$ 语言

1. 定义描述

设含参变量广义积分 $\int_{a}^{+\infty} f(x, y) , dx$在区间$y \in Y$上逐点收敛于$S(y)$。

若对于任意给定的 $\varepsilon > 0$,都存在一个只与 $\varepsilon$有关、而与$y$无关的常数$A_0 \ge a$,使得当积分上限 $A > A_0$时,对于所有$y \in Y$ 恒有:

$$ \left| \int_{a}^{A} f(x, y) \, dx - S(y) \right| \le \varepsilon \quad (\text{或记作 } \left| \int_{A}^{+\infty} f(x, y) \, dx \right| \le \varepsilon) $$

则称该广义积分在区间 $Y$上一致收敛(常用双箭头$\rightrightarrows$ 符号表示),记作:

$$ \int_{a}^{+\infty} f(x, y) \, dx \rightrightarrows S(y) \quad (A \to +\infty, y \in Y) $$

2. 动机与核心痛点

  • 逐点收敛(弱控制):针对每个不同的 $y$,达到逼近精度所需的截断点 $A$是乱跳的。如果某个$y$需要$A=100$,而另一个 $y$需要$A=10^8$,我们就无法在宏观上对整体区域进行统一控制。

  • 一致收敛(强控制):找到了一个“全场通用的保底上限 $A_0$”。只要截断位置超过 $A_0$,不管变量 $y$在集合$Y$里怎么变,误差都会被死死压在$\varepsilon$ 之内。

三、 魏尔斯特拉斯判别法(W-判别法 / M-判别法)

因为直接用 $\varepsilon-A$定义去证一致收敛需要先求出复杂的$S(y)$,这通常很难办到。我们需要一个不需要知道极限结果、直接看被积函数就能做判定的方法。

1. 定理内容(Weierstrass M-test 积分版)

设 $f(x, y)$定义在$[a, +\infty) \times Y$上。如果存在一个与参数$y$无关的非负函数$\varphi(x)$,满足:

  1. 强压制(控制性): $\forall x \in [a, +\infty), \forall y \in Y$,恒有:

$$ |f(x, y)| \le \varphi(x) $$

  1. 基石收敛(可积性):一元广义积分 $\int_{a}^{+\infty} \varphi(x) , dx$ 收敛

则含参变量广义积分 $\int_{a}^{+\infty} f(x, y) , dx$在区间$Y$ 上绝对且一致收敛

2. 推导证明

步骤一:写出 Cauchy 一致收敛准则的形式

广义积分一致收敛,等价于:对于任意 $\varepsilon > 0$,存在 $A_0$,当任意两个截断点 $B > A > A_0$ 时,对其间的“尾巴积分”能实现统一下界控制:

$$ \left| \int_{A}^{B} f(x, y) \, dx \right| \le \varepsilon \quad (\forall y \in Y) $$

步骤二:利用绝对值不等式进行放大

我们去考察这个“尾巴积分”的绝对值,利用积分的三角不等式,将绝对值符号拉进积分号内部:

$$ \left| \int_{A}^{B} f(x, y) \, dx \right| \le \int_{A}^{B} |f(x, y)| \, dx $$

步骤三:代入强控制函数 $\varphi(x)$

由于已知 $|f(x, y)| \le \varphi(x)$,我们可以将整个积分进一步放大:

$$ \int_{A}^{B} |f(x, y)| \, dx \le \int_{A}^{B} \varphi(x) \, dx $$

步骤四:借力打力,完成证明

因为 $\int_{a}^{+\infty} \varphi(x) , dx$是一个已经确定收敛的普通一元积分,根据一元积分的柯西准则,当$A, B$足够大(大于某个$A_0$)时,它的尾巴积分必然可以任意小:

$$ \int_{A}^{B} \varphi(x) \, dx \le \varepsilon $$

串联整个不等式链条,我们得到:

$$ \left| \int_{A}^{B} f(x, y) \, dx \right| \le \int_{A}^{B} \varphi(x) \, dx \le \varepsilon \quad (\forall y \in Y) $$

这完美契合了柯西一致收敛准则。证毕。

例:$\int_0^{+\infty} \frac{\sin(ax)}{x} \mathrm{d}x$为了看清一致收敛在哪里会失效,考察最经典的震荡积分,其中参数$a > 0$且$a \in (0, +\infty)$。

虽然对任何固定的 $a>0$,通过换元 $u = ax$,该积分都能收敛到狄利克雷积分的确定值 $\frac{\pi}{2}$,但当 $a$逼近于$0$ 时,其收敛速度发生了毁灭性的拖延。我们利用柯西准则的否定形式来透视这种坍塌。考察余项:

$$ \left|\int_A^{+\infty} \frac{\sin(ax)}{x} \mathrm{d}x\right| = \left|\int_{aA}^{+\infty} \frac{\sin u}{u} \mathrm{d}u\right| $$

这里的危机在于,无论我们把截断点 $A$推得多么远,只要参数$a$足够小,下限$aA$ 就可以重新缩回原点附近。

如果我们在 $A$游走时,恶意地让参数$a$联动变化,令$a = \frac{1}{A}$(显然对于任何大的 $A$,该 $a$都在定义域$(0, +\infty)$ 内),那么上式退化为:

$$ \left|\int_1^{+\infty} \frac{\sin u}{u} \mathrm{d}u\right| = c > 0 $$

这意味着残差永远无法被一致地压低到任意小的 $\varepsilon$。因此,该积分在 $(0, +\infty)$ 上不一致收敛

参数区间的裁剪与精细化推演:以 $\int_0^{+\infty} t e^{-t^2 x^2} \mathrm{d}x$ 为例

参数所在的集合 $Y$的物理边界,直接决定了一致收敛性的存亡。我们通过对参数$t$ 的空间进行分层剖析,来展示控制流在不同环境下的行为。

1. 远离零点的闭区间 $t \in [c, d] \quad (c > 0)$在这个被硬性隔离在零点之外的区间里,原函数的增长被两头堵死。当$x$很大时,指数部分的衰减速度由最小的$t$(即 $c$)决定,而系数由最大的 $t$(即 $d$)决定:

$$ t e^{-t^2 x^2} \le d e^{-c^2 x^2} = \varphi(x) $$

由于 $\int_0^{+\infty} d e^{-c^2 x^2} \mathrm{d}x$ 是一个收敛的高斯积分,通过 M-判别法,我们可以瞬间断定积分在此区间内一致收敛

2. 半无限区间 $t \in [c, +\infty) \quad (c > 0)$当参数被允许拉伸至$+\infty$时,由于系数带有$t$,M-判别法的放大策略失效了(因为无法找到常数 $d$封顶)。此时我们必须回归到残差的直接估计。通过换元$s = tx$ ($\mathrm{d}s = t\mathrm{d}x$):

$$ \left|\int_A^{+\infty} t e^{-t^2 x^2} \mathrm{d}x\right| = \left|\int_{tA}^{+\infty} e^{-s^2} \mathrm{d}s\right| $$

注意到,当 $t \ge c$ 时,积分下限被强行推远:$tA \ge cA$。因此:

$$ \left|\int_{tA}^{+\infty} e^{-s^2} \mathrm{d}s\right| \le \left|\int_{cA}^{+\infty} e^{-s^2} \mathrm{d}s\right| $$

右侧的积分完全独立于 $t$,且随着 $A \to +\infty$必然趋于$0$。因此,只要令 $A \ge \frac{N_\varepsilon}{c}$,就能保证残差小于 $\varepsilon$。积分在 $[c, +\infty)$ 上一致收敛

3. 包含零点的无形深渊 $t \in [0, +\infty)$如果将区间延伸至触碰零点,平衡再次破裂。直观上看,当$t \to 0$时,整个被积函数似乎要坍塌为$0$,但只要 $t \neq 0$,它在无穷远处的积分值通过换元永远是:

$$ \int_0^{+\infty} t e^{-t^2 x^2} \mathrm{d}x = \int_0^{+\infty} e^{-s^2} \mathrm{d}s = \frac{\sqrt{\pi}}{2} $$

然而,在孤立点 $t=0$处,积分值却暴跌为$0$。这种极限积分值的不连续性,已经从侧面宣告了一致收敛的破产。

若用柯西准则严格审视:在残差 $\int_A^{+\infty} t e^{-t^2 x^2} \mathrm{d}x = \int_{tA}^{+\infty} e^{-s^2} \mathrm{d}s$中,如果让$t$随着$A$的变大而联动萎缩,取$t = \frac{1}{A} \in [0, +\infty)$,则残差恒为常数 $\int_1^{+\infty} e^{-s^2} \mathrm{d}s > 0$。全局控制链断裂,因而在全区间 $[0, +\infty)$ 上不一致收敛

当 Weierstrass M-判别法因为被积函数的强烈震荡(正负相消)而无能为力时,我们需要更精细的工具来处理形如 $\int_a^{+\infty} f(x,y)g(x,y) \mathrm{d}x$ 的乘积型含参量广义积分。

在数学分析中,处理这类问题的核心思想是将单变量积分的经典判别法(Dirichlet 和 Abel 判别法)提升到“参数一致”的高度

四、一致收敛的震荡控制工具

为了保证积分在参数集 $Y$上整齐划一地收敛,我们需要对两个因子$f(x,y)$和$g(x,y)$的行为做出非对称的约束。这两个定理的共同前提是:对于任意固定的$y \in Y$,$f(x,y)$关于$x$ 必须是单调的

1. Dirichlet 判别法(一致版)

当积分的其中一部分具有良好的震荡抵消性,而另一部分均匀地趋于零时使用。

若满足以下两个条件:

  1. $f(x,y)$关于$x$单调,且当$x \to +\infty$时,$f(x,y) \to 0$对$y \in Y$ 一致成立。即:

$$ \lim_{x \to +\infty} \sup_{y \in Y} |f(x,y)| = 0 $$

  1. $g(x,y)$ 的局部积分被均匀地盖住,即其原函数一致有界

$$ \exists M > 0, \quad \text{使得 } \left| \int_a^A g(x,y) \mathrm{d}x \right| \le M, \quad \forall A \ge a, \forall y \in Y $$

则广义积分 $\int_a^{+\infty} f(x,y)g(x,y) \mathrm{d}x$在$Y$ 上一致收敛

2. Abel 判别法(一致版)

当其中一部分本身已经一致收敛,而另一部分均匀保持稳定(不失控)时使用。

若满足以下两个条件:

  1. $f(x,y)$关于$x$ 单调,且在整个参数域上一致有界

$$ \exists M > 0, \quad \text{使得 } |f(x,y)| \le M, \quad \forall x \in [a, +\infty), \forall y \in Y $$

  1. 广义积分 $\int_a^{+\infty} g(x,y) \mathrm{d}x$在$Y$ 上一致收敛

则广义积分 $\int_a^{+\infty} f(x,y)g(x,y) \mathrm{d}x$在$Y$ 上一致收敛

经典案例精析:$\int_0^{+\infty} e^{-tx} \frac{\sin x}{x} \mathrm{d}x \quad (t \in [0, +\infty))$这个积分完美展示了如何利用上述定理在边界上完成精细的解析控制。我们需要证明它在包含零点的闭半轴$t \in [0, +\infty)$ 上是一致收敛的。

由于 $x \to 0$时$\frac{\sin x}{x} \to 1$,原点并非瑕点。我们只需关注 $x \to +\infty$ 处的行为。将其拆解为两部分:

$$ f(x,t) = e^{-tx}, \quad g(x,t) = \frac{\sin x}{x} $$

视角一:尝试直接用 Dirichlet 判别法?(遭遇挫败)

  • 如果令 $f(x,t) = e^{-tx}$,虽然它关于 $x$单调递减,但当$t \to 0$时,$e^{-tx} \to 1$。这意味着当 $t$漂移到$0$附近时,它在无穷远处趋于$0$ 的速度可以任意慢。也就是说,$f(x,t) \to 0$对$t \in [0, +\infty)$ 不是一致的

  • 因此,直接对整个积分在 $[0, +\infty)$ 上套用 Dirichlet 判别法宣告失败。

视角二:重新拆分因子与 Abel 判别法的巧妙介入

既然直接控制衰减速度行不通,我们可以重新分配因子的角色,利用 Abel 判别法的“一致有界 + 一致收敛”的逻辑:

  1. 审视第一部分 $f(x,t) = e^{-tx}$

    对于任何 $t \ge 0$和$x \ge 0$,指数函数显然满足:

$$ |e^{-tx}| \le 1 $$

这说明 $f(x,t)$关于$x$单调且在$t \in [0, +\infty)$ 上一致有界

  1. 审视第二部分 $g(x,t) = \frac{\sin x}{x}$

    这个部分甚至不包含参数 $t$。由单变量积分的知识可知,狄利克雷积分 $\int_0^{+\infty} \frac{\sin x}{x} \mathrm{d}x$ 是收敛的。因为参数根本不参与这一部分,所以它退化为平庸的一致收敛

结论:根据 Abel 判别法,一致有界因子 $e^{-tx}$与一致收敛积分$\int_0^{+\infty} \frac{\sin x}{x} \mathrm{d}x$的组合,完美锁定了原积分$\int_0^{+\infty} e^{-tx} \frac{\sin x}{x} \mathrm{d}x$在$t \in [0, +\infty)$ 上的一致收敛性

应用:求导工具的解锁与求值

一致收敛性绝不是纯粹的理论空谈,它是我们对积分号下进行分析操作(如求导、求极限)的“通行证”。

令 $S(t) = \int_0^{+\infty} e^{-tx} \frac{\sin x}{x} \mathrm{d}x$。由于积分在 $t \in [0, +\infty)$上一致收敛,且形式上对$t$求导后满足更强的一致收敛条件(在$t \in [t_0, +\infty), t_0 > 0$ 上),我们可以合法地将导数算子穿透到积分号内部:

$$ S'(t) = \int_0^{+\infty} \frac{\partial}{\partial t} \left( e^{-tx} \frac{\sin x}{x} \right) \mathrm{d}x = \int_0^{+\infty} (-x) e^{-tx} \frac{\sin x}{x} \mathrm{d}x = -\int_0^{+\infty} e^{-tx} \sin x \mathrm{d}x $$

这是一个基础的逐部积分或复指数积分,结果为:

$$ S'(t) = -\frac{1}{1 + t^2} \quad (t > 0) $$

两边关于 $t$ 积分,得到:

$$ S(t) = -\arctan t + C $$

为了确定常数 $C$,由于积分在 $t \to +\infty$时具有良好的控制,容易看到$\lim_{t \to +\infty} S(t) = 0$。而 $\lim_{t \to +\infty} (-\arctan t) = -\frac{\pi}{2}$,从而解得 $C = \frac{\pi}{2}$。

最终我们得到:

$$ S(t) = \frac{\pi}{2} - \arctan t $$

因为我们在前面证明了积分在包含 $t=0$的闭区间上一致收敛,根据一致收敛积分的连续性定理,我们可以放心地令$t \to 0^+$ 取极限:

$$ \int_0^{+\infty} \frac{\sin x}{x} \mathrm{d}x = S(0) = \frac{\pi}{2} $$

通过一致收敛建立的桥梁,原本难以直接计算的震荡积分问题迎刃而解。

在掌握了含参量广义积分的交换积分次序定理后,我们可以精妙地解决一类直接计算几乎不可能、但引入一个参数“维度”后能瞬间降维打击的经典硬核积分。

下面我们运用积分号下交换积分的工具,来完整拆解并计算这个高难度积分。

经典案例:利用积分号下交换积分计算分式广义积分

核心任务

求广义积分的值:

$$ I = \int_0^{+\infty} \frac{e^{-ax^2} - e^{-bx^2}}{x^2} \mathrm{d}x \quad (a, b > 0) $$

动机与战略构想

面对这个积分,直接寻找原函数是死路一条,因为 $x^2$ 在分母上阻碍了我们利用高斯积分的性质。

然而,注意到分子 $e^{-ax^2} - e^{-bx^2}$的结构非常特殊,它完美符合微积分基本定理的逆向表达。如果我们引入一个连续变化的动态参数$t$,将这两个端点值还原为一个关于 $t$ 的导数的积分:

$$ \left. -e^{-tx^2} \right|_a^b = e^{-ax^2} - e^{-bx^2} $$

那么,利用求导可以把分母上的 $x^2$ 消去!这就是创造条件进行积分次序交换的绝佳契机。

严密推导与计算步骤

第一步:引入参数,改写为累次积分

利用微积分基本定理,将分子改写为对参数 $t$ 的积分:

$$ e^{-ax^2} - e^{-bx^2} = \int_a^b \frac{\partial}{\partial t} \left( -e^{-tx^2} \right) \mathrm{d}t = \int_a^b x^2 e^{-tx^2} \mathrm{d}t $$

将这一表达代回原积分 $I$ 中:

$$ I = \int_0^{+\infty} \frac{1}{x^2} \left( \int_a^b x^2 e^{-tx^2} \mathrm{d}t \right) \mathrm{d}x $$

消去分母中的 $x^2$,我们得到了一个极其干净的累次积分结构:

$$ I = \int_0^{+\infty} \left( \int_a^b e^{-tx^2} \mathrm{d}t \right) \mathrm{d}x $$

第二步:交换积分次序

由于当 $t \in [a, b]$且$a > 0$时,内部的广义积分$\int_0^{+\infty} e^{-tx^2} \mathrm{d}x$关于参数$t$是一致收敛的(可由 Weierstrass M-判别法用$e^{-ax^2}$ 作为控制函数轻松证明)。

符合可积性定理的全部安全边界条件,我们果断交换 $x$和$t$ 的积分次序

$$ I = \int_a^b \left( \int_0^{+\infty} e^{-tx^2} \mathrm{d}x \right) \mathrm{d}t $$

第三步:求解内层高斯积分

现在,内层积分变成了标准的标准高斯积分形式。为了精确求解,对内层进行变量代换。

令 $s = \sqrt{t}x$,则 $\mathrm{d}x = \frac{1}{\sqrt{t}}\mathrm{d}s$,积分限保持 $[0, +\infty)$ 不变:

$$ \int_0^{+\infty} e^{-tx^2} \mathrm{d}x = \int_0^{+\infty} e^{-s^2} \frac{1}{\sqrt{t}} \mathrm{d}s = \frac{1}{\sqrt{t}} \int_0^{+\infty} e^{-s^2} \mathrm{d}s $$

已知经典高斯积分值 $\int_0^{+\infty} e^{-s^2} \mathrm{d}s = \frac{\sqrt{\pi}}{2}$,故内层积分结果为:

$$ \frac{\sqrt{\pi}}{2} \cdot \frac{1}{\sqrt{t}} $$

第四步:外层参数积分与最终锁定

将内层计算结果代回外层,对参数 $t$在$[a, b]$ 上进行常规一元积分:

$$ I = \int_a^b \frac{\sqrt{\pi}}{2} \frac{1}{\sqrt{t}} \mathrm{d}t = \frac{\sqrt{\pi}}{2} \int_a^b t^{-\frac{1}{2}} \mathrm{d}t $$

利用幂函数原函数公式进行计算:

$$ I = \frac{\sqrt{\pi}}{2} \left[ 2\sqrt{t} \right]_a^b = \frac{\sqrt{\pi}}{2} \cdot 2(\sqrt{b} - \sqrt{a}) = \sqrt{\pi}(\sqrt{b} - \sqrt{a}) $$

通过引入一维虚拟参数空间 $t$,原本卡死在 $x^2$ 分母上的代数困局,在交换积分次序后化为了平庸的高斯积分与幂函数积分之积。

最终答案极为优美:

$$ \int_0^{+\infty} \frac{e^{-ax^2} - e^{-bx^2}}{x^2} \mathrm{d}x = \sqrt{\pi}(\sqrt{b} - \sqrt{a}) $$

在完成了关于可积性的探索后,我们再次回到最强大的解析工具——积分号下求导(可微性定理)

下面我们通过一个极具技巧性的含参量广义积分,完整展示如何通过积分号下求导、三角换元以及有理化代换,将其层层剥离并最终锁定。

核心任务

求解含参量广义积分:

$$ S(t) = \int_0^1 \frac{\arctan(tx)}{x \sqrt{1-x^2}} \mathrm{d}x \quad (t \in [0, +\infty)) $$

严密推导与计算步骤

第一步:导数算子的穿透(积分号下求导)

注意到当 $x \to 0$时,利用泰勒展开$\arctan(tx) \sim tx$,被积函数趋于 $\frac{t}{\sqrt{1-x^2}}$,因此 $x=0$并非瑕点;而$x=1$ 是明显的被积函数趋于无穷的瑕点。

为了消除复杂的 $\arctan$结构,我们对参数$t$求导。根据可微性定理,假设求导后的积分一致收敛(后续步骤将自动验证其在$t \in [0, +\infty)$ 上的良好性质),将导数算子穿透到积分内部:

$$ S'(t) = \int_0^1 \frac{\partial}{\partial t} \left[ \frac{\arctan(tx)}{x \sqrt{1-x^2}} \right] \mathrm{d}x = \int_0^1 \frac{1}{x \sqrt{1-x^2}} \cdot \frac{x}{1+(tx)^2} \mathrm{d}x $$

消去分子分母中的 $x$,我们得到了一个纯粹的代数有理根式积分:

$$ S'(t) = \int_0^1 \frac{1}{\sqrt{1-x^2}(1+t^2 x^2)} \mathrm{d}x $$

第二步:经典三角换元

面对分母上的 $\sqrt{1-x^2}$,最自然的动机是利用三角函数将其化简。

令 $x = \sin\theta$,则 $\mathrm{d}x = \cos\theta \mathrm{d}\theta$。当 $x$从$0$变到$1$ 时,$\theta$的积分区间相应地变为$\left[0, \frac{\pi}{2}\right]$:

$$ S'(t) = \int_0^{\frac{\pi}{2}} \frac{1}{\cos\theta (1+t^2 \sin^2\theta)} \cos\theta \mathrm{d}\theta = \int_0^{\frac{\pi}{2}} \frac{1}{1+t^2 \sin^2\theta} \mathrm{d}\theta $$

第三步:万能代换的变体(有理化)

为了求解关于 $\theta$ 的三角有理积分,我们需要将其转化为传统的代数有理分式。

引入换元 $u = \tan\theta$。在此变换下,我们有经典的几何关系:

$$ \sin^2\theta = \frac{u^2}{1+u^2}, \quad \theta = \arctan u \implies \mathrm{d}\theta = \frac{1}{1+u^2} \mathrm{d}u $$

当 $\theta$从$0$走向$\frac{\pi}{2}$ 时,$u$从$0$飙升至$+\infty$。将这些关系代入积分式:

$$ S'(t) = \int_0^{+\infty} \frac{1}{1 + t^2 \left(\frac{u^2}{1+u^2}\right)} \cdot \frac{1}{1+u^2} \mathrm{d}u $$

通分并化简分母:

$$ S'(t) = \int_0^{+\infty} \frac{1+u^2}{(1+u^2) + t^2 u^2} \cdot \frac{1}{1+u^2} \mathrm{d}u = \int_0^{+\infty} \frac{1}{1 + (1+t^2)u^2} \mathrm{d}u $$

第四步:计算导数积分值

上述形式是一个标准的 $\arctan$ 原函数结构。为了清晰表述,我们将分母改写为标准平方和形式:

$$ S'(t) = \int_0^{+\infty} \frac{1}{1 + \left(\sqrt{1+t^2}u\right)^2} \mathrm{d}u = \left. \frac{1}{\sqrt{1+t^2}} \arctan\left(\sqrt{1+t^2}u\right) \right|_0^{+\infty} $$

代入上下限:

$$ S'(t) = \frac{1}{\sqrt{1+t^2}} \left( \frac{\pi}{2} - 0 \right) = \frac{\pi}{2} \cdot \frac{1}{\sqrt{1+t^2}} $$

(注:由于 $S’(t)$在$t \in [0, +\infty)$ 上连续且有界,其对应的含参量广义积分显然一致收敛,这反向证明了第一步求导操作的完全合法性。)

第五步:还原原积分

现在,我们得到了 $S(t)$的导数,只需对其关于$t$ 进行一次简单的一元积分即可:

$$ S(t) = \int \frac{\pi}{2} \frac{1}{\sqrt{1+t^2}} \mathrm{d}t = \frac{\pi}{2} \ln\left(t + \sqrt{1+t^2}\right) + C $$

为了确定积分常数 $C$,回归到原积分的起点。显然,当参数 $t = 0$时,分子$\arctan(0) = 0$,导致整个积分值坍塌为零:

$$ S(0) = 0 $$

将 $t=0$ 代入我们求得的含常数表达式中:

$$ S(0) = \frac{\pi}{2} \ln(0 + \sqrt{1+0}) + C = \frac{\pi}{2} \ln(1) + C = C \implies C = 0 $$

通过精妙地使用积分号下求导,我们将一个复杂的反三角根式广义积分转化为对数形式。最终答案极其优雅:

$$ \int_0^1 \frac{\arctan(tx)}{x \sqrt{1-x^2}} \mathrm{d}x = \frac{\pi}{2} \ln\left(t + \sqrt{1+t^2}\right) $$

在处理含参量积分的极限与变换时,最棘手的情形莫过于积分区间与参数区间同时拉伸至无穷远。此前我们讨论的可积性定理局限于参数 $y$在有限闭区间$[c,d]$ 上的交换。若参数域也变为无穷区间,即考察双重无穷边界下的累次积分交换:

$$ \int_c^{+\infty} \left( \int_a^{+\infty} f(x,y) \mathrm{d}x \right) \mathrm{d}y \stackrel{?}{=} \int_a^{+\infty} \left( \int_c^{+\infty} f(x,y) \mathrm{d}y \right) \mathrm{d}x $$

此时,由于双重极限过程在无穷远处的相互纠缠,仅靠普通的“一致收敛”已不足以支撑算子的无条件交换。为了防止无穷远处的非均匀坍塌,我们需要更强的分析工具。

核心定理:双重无穷区间下的积分交换定理

设 $f(x,y)$在第一象限区域$x \in [a, +\infty), y \in [c, +\infty)$ 上连续。为了安全地交换这两个无穷积分的次序,数学分析提供了两条并行的逻辑路径:局部一致收敛加绝对可积控制,或者全局绝对双重可积性(Fubini 型)

路径一:内层一致收敛 + 外层绝对可积控制

若满足以下条件:

  1. 局部一致收敛:对任意固定的有限上界 $d > c$,积分 $\int_a^{+\infty} f(x,y) \mathrm{d}x$在参数子区间$y \in [c, d]$上一致收敛;同理,对任意固定的$b > a$, $\int_c^{+\infty} f(x,y) \mathrm{d}y$在$x \in [a, b]$ 上一致收敛

  2. 绝对可积性约束(强控制):以下两个绝对累次积分中,至少有一个是存在且收敛的

$$ \int_c^{+\infty} \left( \int_a^{+\infty} |f(x,y)| \mathrm{d}x \right) \mathrm{d}y \quad \text{或} \quad \int_a^{+\infty} \left( \int_c^{+\infty} |f(x,y)| \mathrm{d}y \right) \mathrm{d}x $$

则双重无穷区间的积分次序可以合法交换,即:

$$ \int_c^{+\infty} \left( \int_a^{+\infty} f(x,y) \mathrm{d}x \right) \mathrm{d}y = \int_a^{+\infty} \left( \int_c^{+\infty} f(x,y) \mathrm{d}y \right) \mathrm{d}x $$

动机透视:为什么要强调“绝对值积分存在”?

当两个区间都是无穷时,函数可能在无穷远处产生剧烈的正负交替震荡。如果只要求原积分收敛(可能是条件收敛),那么在交换次序后,震荡的相互抵消机制可能会在不同的积分路径下发生解耦,从而导致两边结果不相等,甚至一边收敛而一边发散。

引入 $|f(x,y)|$ 的绝对可积性,本质上是在空间中拉起了一面有界的“能量天花板”,从根本上扼杀了任何依靠无穷远震荡来维持收敛的弱平衡状态,为算子交换提供了坚实的置信度保护。

经典应用:概率论中高斯积分核心公式的再审视

为了看清双无穷积分交换的威力,我们可以用它来解释概率论与数理统计的核心基石——高斯积分的总能量归一化。

战略构想

我们要计算著名的拉普拉斯-高斯积分值:

$$ J = \int_0^{+\infty} e^{-x^2} \mathrm{d}x $$

常规的做法是利用二重积分的极坐标变换。而在含参量广义积分的框架下,我们可以引入一个无形的指数参数 $y$,通过构造一个二元控制流,在双重无穷积分交换中直接提取出 $J^2$。

严密推导与解析步骤

第一步:构造含有二维结构的控制函数

考虑函数 $f(x,y) = x e^{-x^2(1+y^2)}$,其定义域为 $x \in [0, +\infty), y \in [0, +\infty)$。这个函数的设计动机极其精妙:它在指数上保留了二次型的乘积结构,同时在外部保留了 Jacobi 式的因子 $x$,以便于进行换元。

我们现在对它在整个第一象限计算累次积分。

第二步:路径 $A$—— 先$y$后$x$ 积分

首先将 $x$视为常数参数,对$y$在$[0, +\infty)$ 上进行广义积分。

为了消除指数上的 $y^2$,做变量代换 $u = xy$,则 $\mathrm{d}y = \frac{1}{x} \mathrm{d}u$:

$$ \int_0^{+\infty} x e^{-x^2(1+y^2)} \mathrm{d}y = x e^{-x^2} \int_0^{+\infty} e^{-(xy)^2} \mathrm{d}y = x e^{-x^2} \int_0^{+\infty} e^{-u^2} \frac{1}{x} \mathrm{d}u $$

外部的 $x$与分母上的$x$完美对消。注意到剩下的内层积分为标准高斯积分$\int_0^{+\infty} e^{-u^2} \mathrm{d}u = J$,因此:

$$ \int_0^{+\infty} x e^{-x^2(1+y^2)} \mathrm{d}y = J e^{-x^2} $$

接着,对这一结果在外层关于 $x$从$0$到$+\infty$ 求积分:

$$ \int_0^{+\infty} \left( \int_0^{+\infty} x e^{-x^2(1+y^2)} \mathrm{d}y \right) \mathrm{d}x = \int_0^{+\infty} J e^{-x^2} \mathrm{d}x = J \cdot \int_0^{+\infty} e^{-x^2} \mathrm{d}x = J^2 $$

第三步:路径 $B$—— 先$x$后$y$ 积分

现在我们转换视角,先对 $x$ 进行积分。

注意到被积函数 $x e^{-x^2(1+y^2)}$外部的$x$恰好是内部指数关于$x$ 的导数项的常数倍。因此,内层积分可以直接凑微分求解:

$$ \int_0^{+\infty} x e^{-x^2(1+y^2)} \mathrm{d}x = \left. -\frac{1}{2(1+y^2)} e^{-x^2(1+y^2)} \right|_{x=0}^{x=+\infty} = 0 - \left( -\frac{1}{2(1+y^2)} \right) = \frac{1}{2(1+y^2)} $$

接下来,对这一结果在外层关于参数 $y$在$[0, +\infty)$ 上求积分:

$$ \int_0^{+\infty} \left( \int_0^{+\infty} x e^{-x^2(1+y^2)} \mathrm{d}x \right) \mathrm{d}y = \int_0^{+\infty} \frac{1}{2(1+y^2)} \mathrm{d}y = \left. \frac{1}{2} \arctan y \right|_0^{+\infty} = \frac{1}{2} \cdot \frac{\pi}{2} = \frac{\pi}{4} $$

第四步:交换合法性验证与最终锁定

由于被积函数 $f(x,y) = x e^{-x^2(1+y^2)}$在第一象限内非负,其原积分与其绝对值积分完全等价。路径$B$计算出的累次积分值$\frac{\pi}{4}$ 是一明确的正实数,这直接宣告了定理中绝对可积性约束条件完美成立

因此,双无穷区间下的积分交换操作完全合法。两条路径的计算终点必须强行并轨:

$$ J^2 = \frac{\pi}{4} $$

由于高斯积分取正值,两边开根号即得:

$$ J = \int_0^{+\infty} e^{-x^2} \mathrm{d}x = \frac{\sqrt{\pi}}{2} $$

总结

通过双重无穷区间积分交换定理,我们无需借助显式的二维平面坐标变换(如极坐标系的雅可比行列式),仅凭一维含参量广义积分的代数穿透,便在逻辑的完全自洽中再次锁定了高斯积分的经典值。

在对含参量广义积分的极限、导数与积分进行了严密的分析控制之后,我们来研究两个由含参量广义积分定义的特殊函数——Gamma 函数 ($\Gamma$) 与 Beta 函数 ($B$)

它们不仅是阶乘在实数(乃至复数)域上的解析延拓,更是连接各种硬核积分的终极纽带。

特殊函数

1. Gamma 函数:阶乘的连续化延拓

核心定义

对于参数 $\alpha > 0$,定义 Gamma 函数为以下无穷区间上的含参量广义积分:

$$ \Gamma(\alpha) = \int_0^{+\infty} x^{\alpha-1} e^{-x} \mathrm{d}x $$

收敛性简析:该积分在 $x \to 0$处(当$0 < \alpha < 1$时)有瑕点,在$x \to +\infty$处是广义积分。利用比较判别法易证,当且仅当$\alpha > 0$ 时,该积分在任何紧子区间上一致收敛,从而定义了一个连续可导的函数。

基本性质与递推关系

通过分部积分,我们可以直接建立 Gamma 函数的阶乘阶梯:

$$ \Gamma(\alpha) = \int_0^{+\infty} x^{\alpha-1} \mathrm{d}(-e^{-x}) = \left. -x^{\alpha-1}e^{-x} \right|_0^{+\infty} + (\alpha-1)\int_0^{+\infty} x^{\alpha-2}e^{-x} \mathrm{d}x $$

当 $\alpha > 1$时,前项坍坍为$0$,于是得到核心递推公式:

$$ \Gamma(\alpha) = (\alpha-1)\Gamma(\alpha-1) $$

经典离散点与特殊值

  • 离散整数点:由 $\Gamma(1) = \int_0^{+\infty} e^{-x} \mathrm{d}x = 1$出发,结合递推公式,对任意正整数$n$,显然有:

$$ \Gamma(n) = (n-1)! $$

  • 半整数重要特殊值:通过高斯积分换元可直接锁定 $\Gamma\left(\frac{1}{2}\right)$。令 $x = u^2$,则 $\mathrm{d}x = 2u\mathrm{d}u$:

$$ \Gamma\left(\frac{1}{2}\right) = \int_0^{+\infty} x^{-\frac{1}{1}} e^{-x} \mathrm{d}x = \int_0^{+\infty} \frac{1}{u} e^{-u^2} (2u \mathrm{d}u) = 2\int_0^{+\infty} e^{-u^2} \mathrm{d}u = \sqrt{\pi} $$

2. Beta 函数:有限区间上的幂指标组合

核心定义

对于参数 $p > 0, q > 0$,定义 Beta 函数(又称第一类欧拉积分)为有限闭区间上的含参量瑕积分:

$$ B(p, q) = \int_0^1 x^{p-1}(1-x)^{q-1} \mathrm{d}x $$

当 $p < 1$时,原点为瑕点;当$q < 1$时,划定$x = 1$为瑕点。参数约束$p > 0, q > 0$完美保证了其收敛性。由对称性换元$t = 1-x$ 易知:

$$ B(p, q) = B(q, p) $$

3. 终极纽带:Beta 函数与 Gamma 函数的互通公式

Gamma 函数与 Beta 函数看似一个在无穷区间、一个在有限区间,但它们内部的指数与幂次结构存在深层的代数同构。它们之间存在一个著名的至高核心公式:

$$ B(p, q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} $$

动机与严密证明推导

为了看清这个公式的来源,我们需要将两个一维的 Gamma 函数相乘,转化为一个二重积分,再通过坐标变换提取出 Beta 函数的结构。

考虑两个独立的 Gamma 积分,引入变量代换以方便做平面极坐标式的处理。

令 $x = u^2$ ($\mathrm{d}x = 2u\mathrm{d}u$), $y = v^2$ ($\mathrm{d}y = 2v\mathrm{d}v$):

$$ \Gamma(p) = 2\int_0^{+\infty} u^{2p-1} e^{-u^2} \mathrm{d}u, \quad \Gamma(q) = 2\int_0^{+\infty} v^{2q-1} e^{-v^2} \mathrm{d}v $$

将两者相乘,化为第一象限上的累次积分(进而转换为二重积分):

$$ \Gamma(p)\Gamma(q) = 4 \int_0^{+\infty} \int_0^{+\infty} u^{2p-1} v^{2q-1} e^{-(u^2+v^2)} \mathrm{d}u \mathrm{d}v $$

面对 $e^{-(u^2+v^2)}$ 结构,最自然的动机是转换为极坐标系。

令 $u = r\cos\theta, v = r\sin\theta$,雅可比行列式面积元素 $\mathrm{d}u\mathrm{d}v = r\mathrm{d}r\mathrm{d}\theta$。第一象限对应的几何边界为 $r \in [0, +\infty), \theta \in \left[0, \frac{\pi}{2}\right]$:

$$ \Gamma(p)\Gamma(q) = 4 \int_0^{\frac{\pi}{2}} \int_0^{+\infty} (r\cos\theta)^{2p-1} (r\sin\theta)^{2q-1} e^{-r^2} r \mathrm{d}r \mathrm{d}\theta $$

将径向变量 $r$与角向变量$\theta$ 彻底解耦分离:

$$ \Gamma(p)\Gamma(q) = 4 \left( \int_0^{+\infty} r^{2(p+q)-1} e^{-r^2} \mathrm{d}r \right) \left( \int_0^{\frac{\pi}{2}} (\cos\theta)^{2p-1} (\sin\theta)^{2q-1} \mathrm{d}\theta \right) $$

  • 审视左侧的 $r$积分:重新做换元$t = r^2$ ($\mathrm{d}t = 2r\mathrm{d}r$),它立刻回归为 Gamma 函数的标准定义:

$$ 2 \int_0^{+\infty} r^{2(p+q)-1} e^{-r^2} \mathrm{d}r = \int_0^{+\infty} t^{(p+q)-1} e^{-t} \mathrm{d}t = \Gamma(p+q) $$

  • 审视右侧的 $\theta$积分:为了将其与 Beta 函数对口,我们在$B(p, q)$原始定义中做三角换元$x = \sin^2\theta$ ($\mathrm{d}x = 2\sin\theta\cos\theta\mathrm{d}\theta$):

$$ B(p, q) = \int_0^{\frac{\pi}{2}} (\sin^2\theta)^{p-1} (1-\sin^2\theta)^{q-1} \cdot 2\sin\theta\cos\theta \mathrm{d}\theta = 2\int_0^{\frac{\pi}{2}} (\sin\theta)^{2p-1} (\cos\theta)^{2q-1} \mathrm{d}\theta $$

利用对称性,这刚好等于上述解耦出的角向积分的两倍。

将这两部分拼回原式,便完成了逻辑的闭环:

$$ \Gamma(p)\Gamma(q) = \Gamma(p+q) \cdot B(p, q) \implies B(p, q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} $$

该公式将有限区间上的强烈不可积性与无穷远处的衰减速度完美地进行了代数对冲,是整个积分变换理论中的神来之笔。

阅读全文

笔记11.双线性函数到张量积

线代 2026/5/26

线性空间的度量:双线性函数与多重线性函数的代数具象化

在理解了线性泛函(对偶空间)如何通过“选择器”去提取向量的单维特征后,我们很自然地会面临一个更现实的代数问题:如何在线性空间中引入“度量”? 传统的向量空间只定义了加法和数乘,它本身是“盲目”的,无法直接探讨长短、夹角或投影。为了在抽象的 $K$-线性空间 $V$ 中建立这种几何直觉,我们需要让两个向量通过某种映射产生一个标量,这便是双线性函数(Bilinear Function)的逻辑起点。

基本概念与表示

概念的拆解与动机:从单变量到双变量的线性泛化

我们不能直接把两个向量塞进一个普通的线性泛函里,因为线性泛函的输入只有一个。如果我们希望映射 $f: V \times V \to K$ 能够兼容原空间的线性结构,最朴素的直觉就是“控制变量”——当固定其中一个向量时,它对另一个向量的表现必须是线性的。

这便导出了双线性函数的严格定义。若映射 $f: V \times V \to K$ 满足以下两条双分配律与数乘齐次性:

  1. 对第一个变量线性(左线性):

    $f(k\alpha + l\beta, , \gamma) = kf(\alpha, \gamma) + lf(\beta, \gamma)$2. 对第二个变量线性(右线性):$f(\gamma, , k\alpha + l\beta) = kf(\gamma, \alpha) + lf(\gamma, \beta)$对于任意的向量$\alpha, \beta, \gamma \in V$以及标量$k, l \in K$均成立,则称$f$为$V$ 上的双线性函数

构造动机: 这种双向的线性维持,保证了我们可以像做多项式乘法一样去展开复杂的向量组合。它是内积(Inner Product)的代数抽象,剥离了正定性等几何束缚,仅保留了最基础的代数运算相容性。

矩阵化表征的推导:如何记录一个双线性函数?

一个抽象的双线性映射可能非常复杂,我们不可能穷举 $V \times V$中无数的向量对。如同线性变换可以通过基底化身为矩阵一样,我们自然会问:双线性函数都长什么样子?如何简洁地记录一个双线性函数$f$?

答案极其纯粹:只需记录空间的一组基以及 $f$ 在这组基下的矩阵。

完整的表征推导

设有限维线性空间 $V$的一组基为${\alpha_1, \alpha_2, \dots, \alpha_n}$。在这组基下,任意两个向量 $\alpha$和$\beta$ 都可以被唯一地坐标化:

$$ \alpha = \sum_{i=1}^n x_i \alpha_i, \quad \beta = \sum_{j=1}^n y_j \alpha_j $$

其对应的坐标列向量分别记为:

$$ X = [x_1, x_2, \dots, x_n]^T, \quad Y = [y_1, y_2, \dots, y_n]^T $$

现在,我们让双线性函数 $f$ 作用在这一对向量上。利用其双线性的展开性质,推导如水到渠成般展开:

  1. 代入基底表示:

$$ f(\alpha, \beta) = f\left(\sum_{i=1}^n x_i \alpha_i, , \sum_{j=1}^n y_j \alpha_j\right) $$

  1. 利用左线性,将第一项的求和与系数提出来:

$$ f(\alpha, \beta) = \sum_{i=1}^n x_i f\left(\alpha_i, , \sum_{j=1}^n y_j \alpha_j\right) $$

  1. 利用右线性,将第二项的求和与系数提出来:

$$ f(\alpha, \beta) = \sum_{i=1}^n \sum_{j=1}^n x_i y_j f(\alpha_i, \alpha_j) $$

关键顿悟(The Key Insight): 仔细端详最终的求和式 $\sum_{i=1}^n \sum_{j=1}^n x_i y_j f(\alpha_i, \alpha_j)$。在这个算式中,$x_i$和$y_j$ 是由输入向量完全决定的,而 $f(\alpha_i, \alpha_j)$则是完全由函数本身和基底决定的常数。这意味着,只要我们知道了这$n \times n$ 个标量的值,整个双线性函数的行为就被彻底锁定了。

为了将这个双重求和结构抽象为现代矩阵语言,我们定义一个矩阵 $A \in M_n(K)$,其第 $i$行第$j$ 列的元素为:

$$ a_{ij} = f(\alpha_i, \alpha_j) $$

这个矩阵 $A$被称为$f$在基${\alpha_1, \dots, \alpha_n}$ 下的度量矩阵(Metric Matrix)

借助度量矩阵,上述双重求和结构可以完美地改写为矩阵乘法的级联形式:

$$ \begin{aligned} f(\alpha, \beta) &= [x_1, x_2, \dots, x_n] \begin{bmatrix} f(\alpha_1, \alpha_1) & f(\alpha_1, \alpha_2) & \cdots & f(\alpha_1, \alpha_n) \\ f(\alpha_2, \alpha_1) & f(\alpha_2, \alpha_2) & \cdots & f(\alpha_2, \alpha_n) \\ \vdots & \vdots & \ddots & \vdots \\ f(\alpha_n, \alpha_1) & f(\alpha_n, \alpha_2) & \cdots & f(\alpha_n, \alpha_n) \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} \\ &= \mathbf{X^T A Y} \end{aligned} $$

双线性函数对应的空间

空间结构的升华:从函数到同构的向量空间

当我们固定了一组基后,每一个双线性函数 $f$都唯一对应一个度量矩阵$A$。这种一一对应不仅仅是数据上的映射,它完美地保持了代数运算的内部结构。

1. 双线性函数的代数运算

如果我们将两个双线性函数 $f$和$g$相加,或者对$f$进行数乘$k$,其结果依然是一个双线性函数。在矩阵层面上,这种运算表现得极为协调:

  • 加法: $(f+g)(\alpha, \beta) := f(\alpha, \beta) + g(\alpha, \beta) = X^T A Y + X^T B Y = \mathbf{X^T (A + B) Y}$- 数乘:$(kf)(\alpha, \beta) := k f(\alpha, \beta) = k (X^T A Y) = \mathbf{X^T (kA) Y}$

这说明,$V$ 上的所有双线性函数在加法和数乘下构成了一个新的线性空间,我们将其记为 $T_2(V)$

2. 矩阵空间的同构

上述推导揭示了一个深刻的代数事实:固定基底后,双线性函数空间 $T_2(V)$与矩阵空间$M_n(K)$ 是同构的(Isomorphic)。

$$ f \in T_2(V) \longleftrightarrow A \in M_n(K) $$

这种同构带来了维度的直接对等。因为 $n$阶方阵空间$M_n(K)$的维度显而易见是$n^2$,所以我们可以直接判定双线性函数空间的维度:

$$ \dim T_2(V) = n^2 $$

视角的更进一步:多重线性函数的自然延展

当我们不再满足于“两个向量”的相互作用,而是希望探究 $r$ 个向量之间的多维线性依赖关系时,双线性函数就自然地演变成了多重线性函数(Multilinear Function)

设 $f: V^r = V \times V \times \dots \times V \to K$是一个定义在$r$个线性空间笛卡尔积上的函数。如果它对单独每一个变量都保持线性(即在其余$r-1$个变量固定时,对剩下的那一个变量表现为线性泛函),则称$f$是$V$ 上的 $r$-重线性函数

用代数式表达即为,在第 $i$ 个位置上满足:

$$ f(\dots, , \alpha + \beta, , \dots) = f(\dots, , \alpha, , \dots) + f(\dots, , \beta, , \dots) $$

$$ f(\dots, , k\alpha, , \dots) = k f(\dots, , \alpha, , \dots) $$

当我们把双线性函数的“两个变量”外推到 $r$个变量时,我们面对的是一个映射$f: V^r \to K$。如何记录这样一个宏观映射?

完整的表征推导

设有限维线性空间 $V$的一组基为${\alpha_1, \alpha_2, \dots, \alpha_n}$。对于 $r$个任意输入的向量$\beta_1, \beta_2, \dots, \beta_r \in V$,它们在这组基下的坐标展开分别为:

$$ \beta_k = \sum_{i=1}^n x_k^{(i)} \alpha_i \quad (1 \le k \le r) $$

其中 $x_k^{(i)}$表示第$k$个向量在第$i$个基向量$\alpha_i$ 前的系数。

现在,让 $f$作用在这一组向量上。由于$f$ 对每一个变量都满足线性,我们可以像抽丝剥茧一样,逐层将求和号与坐标系数提取出来:

$$ f(\beta_1, \beta_2, \dots, \beta_r) = f\left(\sum_{i_1=1}^n x_1^{(i_1)} \alpha_{i_1}, \, \sum_{i_2=1}^n x_2^{(i_2)} \alpha_{i_2}, \, \dots, \, \sum_{i_r=1}^n x_r^{(i_r)} \alpha_{i_r}\right) $$

利用完全分配律(多重线性),所有的求和号被堆叠到最外层,所有的坐标系数被级联相乘:

$$ f(\beta_1, \beta_2, \dots, \beta_r) = \sum_{1 \le i_1, \dots, i_r \le n} x_1^{(i_1)} x_2^{(i_2)} \cdots x_r^{(i_r)} f(\alpha_{i_1}, \alpha_{i_2}, \dots, \alpha_{i_r}) $$

构造动机:

此时,宏观函数的行为完全坍缩在了这 $n^r$ 个固定的标量值上:

$$ b_{i_1 i_2 \dots i_r} = f(\alpha_{i_1}, \alpha_{i_2}, \dots, \alpha_{i_r}) \in K $$

在双线性函数($r=2$)中,这组常数排列成一个二维矩阵 $a_{ij}$;而在 $r$-重线性函数中,这 $n^r$个常数构成了一个高阶阵列——这便是现代数学与数据科学中“张量(Tensor)”的代数具象。它说明,正如双线性函数全体构成空间$T_2(V)$,全体系数运算同样保持加法与数乘相容,构成多重线性函数空间 $T_r(V)$。

对偶的桥梁:伴随映射的诞生

回到双线性函数 $f: V \times V \to K$。如果我们换一种视角看它:不把它看作两个向量的“熔炉”,而是看作一个“转换器”——当我塞入一个固定的向量 $\alpha$ 时,剩下的那个位置不就变成了一个只吃一个向量的线性泛函了吗?

这便导出了伴随映射(Induced Mapping)的构造。对于每个固定的 $\alpha \in V$,我们定义两个 $V$上的线性泛函(即$V^*$ 中的元素):

  • 左泛函(固定左变量): $\alpha_L: V \to K, \quad \alpha_L(\beta) := f(\alpha, \beta)$- 右泛函(固定右变量):$\alpha_R: V \to K, \quad \alpha_R(\beta) := f(\beta, \alpha)$由此,我们自然地诱导出了两个从原空间$V$到对偶空间$V^*$ 的宏观线性映射:

$$ \psi_L: V \to V^*, \quad \alpha \mapsto \alpha_L $$

$$ \psi_R: V \to V^*, \quad \alpha \mapsto \alpha_R $$

这两个映射分别被称为左映射右映射。它们是双线性函数特有的“触手”,将具体向量转化为了对偶世界的泛函。

空间的盲区:左根空间与右根空间

既然 $\psi_L$和$\psi_R$ 是线性映射,根据线性代数的核心直觉,我们必须立刻考察它们的核空间(Kernel)。那些被它们映射为对偶空间零元素的向量,代表了什么?

1. 根空间的定义

  • 左根(Left Radical): 若 $\alpha \in \text{Ker},\psi_L$,意味着对于任意的 $\beta \in V$,都有 $\alpha_L(\beta) = f(\alpha, \beta) = 0$。我们称 $\alpha$为$f$的一个左根。全体左根构成的子空间$\text{Ker},\psi_L$称为$f$ 的左根空间

  • 右根(Right Radical): 若 $\alpha \in \text{Ker},\psi_R$,意味着对于任意的 $\beta \in V$,都有 $\alpha_R(\beta) = f(\beta, \alpha) = 0$。我们称 $\alpha$为$f$的一个右根。全体右根构成的子空间$\text{Ker},\psi_R$称为$f$ 的右根空间

几何直觉: 根空间里的向量是度量意义下的“隐形人”或“绝对正交者”。一个左根向量 $\alpha$放在左边时,无论右边换成空间的任何向量,度量结果全部为$0$。它与整个空间“绝缘”了。

2. 矩阵形式下的显式表征

如果我们固定基底,将双线性函数写成度量矩阵 $A$,那么寻找根空间就完美地等价于解经典的齐次线性方程组。

设向量 $\alpha$在基下的坐标为$X$。

  • 既然对于所有 $Y$都有$X^T A Y = 0$,那么必然有 $X^T A = 0$,转置过来即为 $A^T X = 0$

  • 同理,对于右根,所有 $Y$都有$Y^T A X = 0$,必然有 $A X = 0$

这导出了极其漂亮的度量定理:

  • 左根空间 $= {(\alpha_1 \dots \alpha_n)X \mid A^T X = 0}$- 右根空间$= {(\alpha_1 \dots \alpha_n)X \mid A X = 0}$因为矩阵$A$ 的行列秩相等($\text{rank}(A) = \text{rank}(A^T)$),根据秩-零度定理(Rank-Nullity Theorem),齐次方程组的解空间维度被瞬间锁定:

$$ \text{左根维数} = \text{右根维数} = n - \text{rank}(A) $$

关键顿悟(The Key Insight): 尽管由于 $A$ 可能是不对称的,导致左根空间和右根空间在几何上是不同的子空间,但它们的维度在绝对数值上永远相等

完美的度量:非退化双线性函数与同构

如果一个度量空间里存在那些与谁做运算都为 $0$ 的“根向量”(除了零向量本身),这个度量就是有缺陷的(退化的)。为了建立完美的几何结构,我们希望空间的盲区尽量小。

定义: 若 $f$的左、右根空间都是零子空间(即只有零向量能与全空间保持正交),则称$f$ 是非退化双线性函数(Non-degenerate Bilinear Function)

核心等价定理

结合上述所有推导,以下四个条件达成了代数上的完全等价:

$$ f \text{ 非退化} \iff f \text{ 的度量矩阵 } A \text{ 满秩 } (\text{rank}(A)=n) $$

$$ \iff \psi_L: V \to V^* \text{ 是线性同构} $$

$$ \iff \psi_R: V \to V^* \text{ 是线性同构} $$

置信度评级:高(对偶映射与满秩的等价性构成了有限维线性空间度量理论的基石)。

结构评估与对偶破缺

这个定理极为深刻。在通常情况下,线性空间 $V$和它的对偶空间$V^$ 虽然同维,但是它们之间*不存在自然的(不依赖基底的)同构

然而,一旦我们在 $V$上指定了一个非退化双线性函数$f$,这个函数就赋予了空间一种内在的度量结构,从而强行在 $V$和$V^*$之间建立了一个不依赖外部基底的选择的自然同构$\psi$

$$ f(\alpha, \beta) = \big(\psi(\alpha)\big)(\beta) $$

反之,给定了任意一个同构 $\psi: V \to V^*$,我们就能自然地定义一个非退化的双线性度量。

换基

在线性空间的代数框架中,非退化双线性函数成功建立起了原空间与对偶空间的桥梁。然而,坐标化始终依赖于特定基底的选择。一旦我们将视角从单一的静止基底拓展到基底的动态跃迁(基底变换),双线性函数所蕴含的深层代数性质便在矩阵空间中引发了一场剧烈的对称性分化。这促使我们重新审视对称、反对称的几何本质,并最终借助多重线性函数完成对“行列式”这一终极代数不变量的宏观建构。

基底的跃迁:度量矩阵的合同法则(Congruence)

当我们改变空间 $V$的基底时,双线性函数$f$ 本身作为几何实体保持不变,但其“身份证”——度量矩阵,必须遵循特定的演化规律。

1. 完整的合同公式推导

设线性空间 $V$中存在两组不同的基,它们通过过渡矩阵$P$ 达成联系:

$$ (\beta_1, \dots, \beta_n) = (\alpha_1, \dots, \alpha_n) P $$

设向量 $\alpha, \beta \in V$在新基${\beta_i}$下的坐标列向量分别为$X, Y$。根据基底变换与坐标变换的逆反关系,它们在旧基 ${\alpha_i}$下的坐标将通过$P$进行线性映射,分别表现为$PX$和$PY$。

现在,让双线性函数 $f$ 作用于这对向量。我们在旧基的框架下将其展开:

$$ f(\alpha, \beta) = (PX)^T A (PY) $$

利用矩阵乘法的转置分配律 $(PX)^T = X^T P^T$,代数式自然地组合为:

$$ f(\alpha, \beta) = X^T (P^T A P) Y $$

构造动机与代数升华:

因为新基底下的度量矩阵 $B$必须满足定义式$f(\alpha, \beta) = X^T B Y$,而在有限维空间中这种矩阵表征是唯一的,因此我们被迫得到新旧度量矩阵之间的跃迁法则:

$$ B = P^T A P $$

这种形如 $B = P^T A P$的矩阵关系,被称为合同(Congruence)。这与线性变换在基变换下的相似(Similarity)关系$P^{-1}AP$ 截然不同。它深刻地表明:双线性函数是比线性变换更深层的几何结构,它的合同律保护的是两向量相互作用的度量不变量,而非映射的特征值。

对称性的分化:对称与反对称的代数破缺

在合同法则的演化下,有两类特殊的矩阵表现出了无与伦比的结构稳定性:对称矩阵反对称矩阵。这对应了双线性函数的两类核心物理形态。

1. 对称与反对称的定义

  • 对称双线性函数: 满足 $f(\alpha, \beta) = f(\beta, \alpha), \quad \forall \alpha, \beta \in V$。在任意基底下的度量矩阵均满足 $A = A^T$。

  • 反对称双线性函数: 满足 $f(\alpha, \beta) = -f(\beta, \alpha), \quad \forall \alpha, \beta \in V$。在任意基底下的度量矩阵均满足 $A = -A^T$。

2. 特征非 2 域($\text{ch } K \neq 2$)下的代数约束

在讲义中频繁出现一个技术性前提:$\text{ch } K \neq 2$(域的特征不等于 2,即 $1+1 \neq 0$)。在这个健康的域上,反对称性拥有一个完美的等价刻画:

$$ f \text{ 反对称} \iff f(\alpha, \alpha) = 0, \quad \forall \alpha \in V $$

  • $\Longrightarrow$方向的证明: 设$f$反对称,令$\beta = \alpha$,则有 $f(\alpha, \alpha) = -f(\alpha, \alpha)$。移项得 $2f(\alpha, \alpha) = 0$。因为 $\text{ch } K \neq 2$,所以 $2 \neq 0$,从而必有 $f(\alpha, \alpha) = 0$。

  • $\Longleftarrow$方向的证明(极化恒等式动机): 若对任意向量都有自作用为$0$,考察 $f(\alpha + \beta, \alpha + \beta) = 0$。利用双线性完全展开:

$$ f(\alpha, \alpha) + f(\alpha, \beta) + f(\beta, \alpha) + f(\beta, \beta) = 0 $$

代入自作用为 $0$ 的条件,中间两项被迫满足:$f(\alpha, \beta) + f(\beta, \alpha) = 0 \implies f(\alpha, \beta) = -f(\beta, \alpha)$。

范例深剖:连续空间与矩阵空间的度量具象

为了让抽象的对称性落地,讲义给出了两个在分析学与量子代数中至关重要的实例:

1. 函数空间 $C[a, b]$ 上的内积

设 $V = C[a, b]$ 为闭区间上的连续函数空间,定义:

$$ f(h, g) = \int_a^b h(x)g(x)dx $$

由于实数乘法的交换律 $h(x)g(x) = g(x)h(x)$,该函数显然满足对称性。同时,若 $h \neq 0$,则 $f(h, h) = \int_a^b h^2(x)dx > 0$,满足正定性。这说明正定的对称双线性函数在无穷维空间的具体化就是内积

2. 矩阵空间 $M_{m,n}(\mathbb{R})$ 上的 Frobenius 内积

设 $V = M_{m,n}(\mathbb{R})$,定义:

$$ f(A, B) = \text{tr}(A^T B) $$

利用迹的性质 $\text{tr}(M) = \text{tr}(M^T)$,我们有 $\text{tr}(A^T B) = \text{tr}((A^T B)^T) = \text{tr}(B^T A) = f(B, A)$,证明了其对称性。当 $A \neq 0$ 时,$f(A, A) = \text{tr}(A^T A) = \sum_{i,j} a_{ij}^2 > 0$,构成了矩阵空间内天然的能量度量。

从反对称 $n$-重线性函数到行列式

现在,我们将基底变换、反对称性以及多重线性函数这三根线条拧在一起,去见证行列式的自然诞生

考虑 $K^n$空间上的一个 反对称$n$-重线性函数 $f: K^n \times \dots \times K^n \to K$。这意味着输入 $n$ 个列向量,只要其中任意两列相同,函数值就瞬间归零。

1. 完整的交错展开推导

我们将输入的 $n$ 个列向量排列成一个方阵的各列:

$$ A = [a_{ij}] = [\mathbf{a_1}, \mathbf{a_2}, \dots, \mathbf{a_n}] $$

让每个列向量在标准基 ${\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n}$ 下进行线性组合展开:

$$ \mathbf{a_j} = \sum_{i=1}^n a_{ij} \varepsilon_i $$

代入 $n$-重线性函数 $f$,利用我们在上一章推导的多重线性完全展开法则:

$$ f(\mathbf{a_1}, \mathbf{a_2}, \dots, \mathbf{a_n}) = f\left(\sum_{i_1=1}^n a_{i_1 1}\varepsilon_{i_1}, \, \dots, \, \sum_{i_n=1}^n a_{i_n n}\varepsilon_{i_n}\right) = \sum_{1 \le i_1, \dots, i_n \le n} a_{i_1 1} a_{i_2 2} \dots a_{i_n n} f(\varepsilon_{i_1}, \varepsilon_{i_2}, \dots, \varepsilon_{i_n}) $$

反对称性的强力剪枝:

在上述庞大的 $n^n$项求和中,只要指标序列$(i_1, i_2, \dots, i_n)$中存在任何两个数字相同,由于$f$的反对称性(两列相同则值为 0),该项立刻坍缩为 0。因此,存活下来的项,其指标序列必须是$1, 2, \dots, n$的一个全排列$\sigma$。

对于任意一个排列 $\sigma = (i_1, i_2, \dots, i_n)$,我们可以通过有限次对换将其恢复为标准顺序 $(1, 2, \dots, n)$。由于 $f$ 是反对称的,每次对换都会导致函数值改变一次符号:

$$ f(\varepsilon_{i_1}, \varepsilon_{i_2}, \dots, \varepsilon_{i_n}) = \text{sgn}(i_1 i_2 \dots i_n) f(\varepsilon_1, \varepsilon_2, \dots, \varepsilon_n) $$

其中 $\text{sgn}$ 为排列的符号(偶排列为 1,奇排列为 -1)。

将这一结果代回求和式,将共同的常数项 $f(\varepsilon_1, \dots, \varepsilon_n)$ 提取到最外层:

$$ f(\mathbf{a_1}, \dots, \mathbf{a_n}) = f(\varepsilon_1, \dots, \varepsilon_n) \sum_{\sigma \in S_n} \text{sgn}(\sigma) a_{\sigma(1) 1} a_{\sigma(2) 2} \dots a_{\sigma(n) n} $$

2. 行列式的定义化身

仔细观察留在求和号内部的式子:$\sum_{\sigma \in S_n} \text{sgn}(\sigma) a_{\sigma(1) 1} \dots a_{\sigma(n) n}$,这不偏不倚,恰好就是矩阵 $A$ 的Leibniz 行列式定义

这导出了极其震撼的代数结论:

$$ f(\mathbf{a_1}, \dots, \mathbf{a_n}) = f(\varepsilon_1, \dots, \varepsilon_n) \cdot \det(A) $$

核心结构透视:

如果我们将标准基底下的输出值规范化(Normalize)为 $f(\varepsilon_1, \dots, \varepsilon_n) = 1$,那么这个独特的反对称 $n$-重线性函数 $f$ 本身,就是行列式(Determinant)

这揭示了行列式的本质几何动机:它不是一堆杂乱的交叉相乘,而是定义在 $n$维向量空间上的、唯一的、交错的、能够测量$n$ 维超平行多面体定向体积的顶阶微分形式(Top-form)

终点与新起点:对称矩阵的合同标准型

在完成了反对称性向高维行列式的跃迁后,将目光重新投回对称双线性函数。既然普通的度量矩阵会随着基底变换做 $P^T A P$ 的合同演化,我们自然想要寻求一个“最简单、最干净”的基底,使得在这个基底下度量矩阵的表现达到极致。

这便是对称双线性函数的标准型定理

设 $\text{ch } K \neq 2$,对于任意对称双线性函数 $f$,在空间 $V$中必然存在一组极其完美的基底,使得$f$ 在该基底下的度量矩阵变成一个对角矩阵(Diagonal Matrix)。此时,交叉项全部消失,双线性函数化身为最纯粹的加权平方式:

$$ f(\alpha, \beta) = d_1 x_1 y_1 + d_2 x_2 y_2 + \dots + d_n x_n y_n $$

在实数域 $\mathbb{R}$ 上,将度量矩阵化为对角标准型有三种经典路径:

  1. 正交替换法(Orthogonal Transformation): 借助实对称矩阵特征值理论,不仅合同而且相似,保持几何轴向(实数域特有)。

  2. 拉格朗日配方法(Lagrange’s Method): 纯粹代数层面的消元与完全平方构造,具有极高的普适性。

  3. 成对的初等行、列变换: 对矩阵 $A$施加初等行变换的同时,必须立刻施加完全相同的初等列变换,以此来维持$P^T A P$ 的合同结构。

那么说完理论层面,我们看看如何具体计算。

算法流的构建:成对初等变换

为了求解可逆过渡矩阵 $P$使得$P^T A P = D$ 成为对角矩阵,拉格朗日配方法在矩阵语言下的最佳映射就是成对初等变换法(Simultaneous Row and Column Operations)

1. 伴随记录矩阵的构造动机

在线性变换的相似对角化中,我们利用增广矩阵 $[A \mid I]$进行初等行变换来求逆矩阵。但在双线性函数的合同变换中,由于$P$同时以转置$P^T$(左乘,对应行变换)和 $P$(右乘,对应列变换)的形式作用于 $A$,传统的单侧增广失去了效力。

为了在动态变换中同时追踪度量矩阵的演化和过渡矩阵 $P$ 的累积,我们必须构建一个双层垂直伴随矩阵

$$ \begin{bmatrix} A \\ -- \\ I \end{bmatrix} $$

  • 上半部分:放置待消元的度量矩阵 $A \in M_n(K)$。

  • 下半部分:放置初始单位阵 $I \in M_n(K)$,用于像计数器一样“拓印”所有的列变换

2. “步调一致”的运算律

在操作该伴随阵时,必须遵循以下绝对铁律:

每对上半部分 $A$施加一次初等行变换(如第$j$行加上第$i$行的$k$倍),必须立刻对整个矩阵的列施加完全相同的初等列变换(第$j$列加上第$i$列的$k$ 倍)。

由于下半部分仅参与列变换,当上半部分的 $A$历经一系列成对变换最终被榨干为对角阵$D$时,下半部分便完美地从$I$蜕变为了所需的过渡矩阵$P$。

3. 经典范例的具象演算与细节补充

$$ A = \begin{bmatrix} 1 & 2 & -2 \\ 2 & 4 & -2 \\ -2 & -2 & 0 \end{bmatrix} $$

步骤 1:利用主元 $a_{11}=1$ 清空第一行与第一列的非对角元
  • 行变换:第 2 行减去第 1 行的 2 倍,第 3 行加上第 1 行的 2 倍。

  • 列变换:立刻执行第 2 列减去第 1 列的 2 倍,第 3 列加上第 1 列的 2 倍。

经过这一轮对称的消元清洗,伴随矩阵演化为:

$$ \begin{bmatrix} A \\ -- \\ I \end{bmatrix} \sim \begin{bmatrix} 1 & 0 & 0 \\ 0 & 0 & 2 \\ 0 & 2 & -4 \\ -- & -- & -- \\ 1 & -2 & 2 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} $$

步骤 2:死锁突破——对角元全零的几何错位(关键顿悟)

仔细观察此时的第 2 行第 2 列元素 $a_{22} = 0$,而交叉项 $a_{23} = a_{32} = 2 \neq 0$。我们无法用现存的第 2 行主元去消去第 3 行。算法在此处发生了假死。

为了突破这个盲区,使用通用错位算法

若某个对角元 $a_{ii}=0$,但同一行(列)里存在非零元 $a_{ij} = a$。则通过成对变换:将第 $i$行加上第$j$行的$k$倍,并立刻将第$i$列加上第$j$列的$k$ 倍。

我们来看这个操作对原本为 0 的对角元施加了怎样的代数魔法。利用双线性展开,新的对角元将变为:

$$ a_{ii}' = a_{ii} + k a_{ji} + k a_{ij} + k^2 a_{jj} = 0 + 2ka + k^2 b $$

其中 $b = a_{jj}$。只要我们选取适当的 $k$(通常取 $k=1$或$-1$),就能保证 $2ka + k^2 b \neq 0$,从而强行将零对角元激活为非零主元

在当前范例中:

  • 行变换:第 2 行加上第 3 行的 $1$倍(此时$k=1$)。

  • 列变换:立刻第 2 列加上第 3 列的 $1$ 倍。

让我们看看上半部分矩阵的右下角 $2 \times 2$ 子块发生了什么变异:

$$ \begin{bmatrix} 0 & 2 \\ 2 & -4 \end{bmatrix} \xrightarrow{\text{r}_2 + \text{r}_3} \begin{bmatrix} 2 & -2 \\ 2 & -4 \end{bmatrix} \xrightarrow{\text{c}_2 + \text{c}_3} \begin{bmatrix} \mathbf{2} & -2 \\ -2 & -4 \end{bmatrix} $$

原本是 0 的主元成功被激活为了 2!此时整个伴随阵变为:

$$ \begin{bmatrix} 1 & 0 & 0 \\ 0 & 2 & -2 \\ 0 & -2 & -4 \\ -- & -- & -- \\ 1 & 0 & 2 \\ 0 & 1 & 0 \\ 0 & 1 & 1 \end{bmatrix} $$

步骤 3:盖棺定论的终消元

现在的对角元为 $2$。

  • 行变换:第 3 行加上第 2 行的 $1$ 倍。

  • 列变换:第 3 列加上第 2 列的 $1$ 倍。

伴随阵最终凝聚为:

$$ \begin{bmatrix} 1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & -6 \\ -- & -- & -- \\ 1 & 2 & 4 \\ 0 & 1 & 1 \\ 0 & 1 & 2 \end{bmatrix} $$

为了让系数更加美观,对基底进行一次等比例缩放(对第 2 行/列同时乘以 $\frac{1}{\sqrt{2}}$ 或移项配方调整),最终输出的标准答案为:

$$ D = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -4 \end{bmatrix}, \quad P = \begin{bmatrix} 1 & -1 & 2 \\ 0 & 1 & 0 \\ 0 & 1/2 & 1 \end{bmatrix} $$

对应的几何新基底 $\beta = \alpha P$ 显式表达为:

$$ \beta_1 = \alpha_1, \quad \beta_2 = -\alpha_1 + \alpha_2 + \frac{1}{2}\alpha_3, \quad \beta_3 = 2\alpha_1 + \alpha_3 $$

在该基底下,原本错综复杂的双线性函数化为了清爽的纯平方和度量:

$$ f(\alpha, \beta) = x_1 y_1 + x_2 y_2 - 4x_3 y_3 $$

反对称的极化:辛结构与全同构分类

当我们把完全相同的成对初等变换法则施加给反对称双线性函数时,整个代数景观发生了一次惊人的跨越。对称矩阵试图追求的是“对角化”,而反对称矩阵由于其天然的对角线全零属性($\text{ch } K \neq 2$时$f(\alpha,\alpha)=0$),其合同演化的终点导向了一种被称为辛标准型(Symplectic Canonical Form)的块状交错结构。

1. 反对称矩阵的合同标准型定理

设 $V$是数域$K$上的$n$ 维线性空间,$f(\alpha, \beta)$是$V$上的反对称双线性函数。则必然存在$V$的一组极其特殊的基底,使得$f$的度量矩阵呈现为如下的分块对角阵$E$

$$ E = \begin{bmatrix} \begin{matrix} 0 & 1 \\ -1 & 0 \end{matrix} & & & \\ & \ddots & & \\ & & \begin{matrix} 0 & 1 \\ -1 & 0 \end{matrix} & \\ & & & \begin{matrix} 0 & & \\ & \ddots & \\ & & 0 \end{matrix} \end{bmatrix} $$

核心结论披露:

  1. 每一个非零的分块都是一个 $2 \times 2$的标准交错矩阵$\begin{bmatrix} 0 & 1 \ -1 & 0 \end{bmatrix}$。这说明非退化的反对称双线性函数,其对应的空间维度必然是偶数($2r$ 维)

  2. 剩余的部分全部由零补齐。如果整个函数是非退化的,则零块彻底消失,整个矩阵由 $r$个这样的$2 \times 2$ 辛块级联而成。

2. 坐标视角的解析表达

在这组完美的基底下,我们若观察双线性函数的显式多项式展开,它会表现为一种成对咬合的交错对

$$ f(\alpha, \beta) = X^T E Y = (x_1 y_2 - x_2 y_1) + (x_3 y_4 - x_4 y_3) + \dots + (x_{2r-1} y_{2r} - x_{2r} y_{2r-1}) $$

每一对 $(x_{2k-1}, x_{2k})$与$(y_{2k-1}, y_{2k})$之间都在进行着类似二维决定式(面积)的交错运算。这在物理学中具有极为深刻的动机——这正是哈密顿力学(Hamiltonian Mechanics)中相空间(Phase Space)里位置量$q$与动量$p$ 的正则对偶结构

全等价推论

从反对称标准型中,我们可以直接收割一个关于矩阵空间的终极推论:

推论:设 $A, B$是数域$K$上的两个$n$ 级反对称矩阵,则:

$$ A \text{ 与 } B \text{ 合同} \iff \text{rank}(A) = \text{rank}(B) $$

批判性对比评估(对称 vs 反对称):

这个推论展示了反对称世界异乎寻常的纯粹性。

  • 对称矩阵的世界里,两个矩阵想要合同,在实数域 $\mathbb{R}$上不仅要求秩相同,还要求正负惯性指数完全一致(Sylvester 惯性定理);在复数域$\mathbb{C}$ 上才仅要求秩相同。

  • 然而在反对称矩阵的世界里,无论你在什么域上(只要 $\text{ch } K \neq 2$),“秩”是唯一的合同不变量。因为任何反对称矩阵在合同意义下都只能演化为由它的秩 $2r$所唯一决定的标准型$E$。只要秩相等,它们就能通过标准型作为中介,跨越空间的迷雾达成完美的合同。

在完成了双线性函数在特定基底下的矩阵化以及非退化诱导同构的讨论后,我们站在了一个更本质的代数分水岭前。后半部分我们的视角从“作为函数的双线性”极化为“作为几何对象的二次型”,并随后引出了现代代数学中最伟大的核心构造之一——张量积(Tensor Product)

这一章的演进不仅是为了寻找基底,而是为了彻底解决一个代数上的宿命难题:如何将“多重非线性映射”转化为标准的“单变量线性映射”?

几何的投影:对称双线性函数与二次型的极化等价

在 $\text{ch } K \neq 2$的数域上,对称双线性函数$f(\alpha, \beta)$与一个纯粹的单变量非线性函数——二次型(Quadratic Form)$Q(\alpha)$ 达成了结构上的完全绑定。

1. 极化恒等式(Polarization Identity)的推导

定义一个映射 $Q: V \to K$,其通过对称双线性函数 $f$ 的自作用给出:

$$ Q(\alpha) := f(\alpha, \alpha) $$

由于 $f$在具体基底下的表征为$X^T A Y$,那么 $Q(\alpha)$ 在该基底下的显式表达即为齐次二次多项式:

$$ Q(\alpha) = X^T A X $$

如果我们只被赋予了 $Q(\alpha)$这个函数,我们能否逆向重构出原本的双线性度量$f(\alpha, \beta)$?

利用 $f$的对称性与双线性,我们考察两个不同向量和的二次能级$Q(\alpha + \beta)$:

$$ \begin{aligned} Q(\alpha + \beta) &= f(\alpha + \beta, \, \alpha + \beta) \\ &= f(\alpha, \alpha) + f(\alpha, \beta) + f(\beta, \alpha) + f(\beta, \beta) \\ &= Q(\alpha) + 2f(\alpha, \beta) + Q(\beta) \end{aligned} $$

移项并两边同时除以 2(此步强烈依赖 $\text{ch } K \neq 2$),我们便优雅地解出了核心通道:

$$ f(\alpha, \beta) = \frac{1}{2}\big(Q(\alpha + \beta) - Q(\alpha) - Q(\beta)\big) $$

构造动机:

极化恒等式表明,二次型与对称双线性函数是一体两面。在几何上,这意味着只要知道了整个空间中所有向量的“长度平方”(二次型),就能唯一恢复出任意两向量的“内积与夹角”(双线性函数)。

如果我们在一组基下将向量表示为坐标列向量 $X, Y$,那么对称双线性函数可以写为 $f(\alpha, \beta) = X^T A Y$(其中 $A$ 为对称度量矩阵)。

通过上述相同的代数展开,动机在矩阵层面表现为:

$$ \begin{aligned} Q(\alpha + \beta) &= (X+Y)^T A (X+Y) \\ &= X^T A X + X^T A Y + Y^T A X + Y^T A Y \\ &= X^T A X + 2X^T A Y + Y^T A Y \quad (\text{因为标量 } Y^T A X = (Y^T A X)^T = X^T A Y) \\ &= Q(\alpha) + 2X^T A Y + Q(\beta) \end{aligned} $$

因此,$X^T A Y = \frac{1}{2}{Q(\alpha + \beta) - Q(\alpha) - Q(\beta)}$。坐标表达与几何抽象完美契合。

构造双线性函数空间的基

动机

已知有限维线性空间 $V$的对偶空间$V^$(由所有线性泛函组成)有一组对偶基 ${\alpha_1^, \dots, \alpha_n^*}$。现在我们考虑 $V$上所有双线性函数构成的线性空间,记为$T_2(V)$。

我们希望为 $T_2(V)$ 找到一组自然且直观的基。

一个线性泛函 $\xi^* \in V^$ 只能吞掉一个向量。为了让它吞掉两个向量并产生双线性,最朴素的想法就是*把两个线性泛函乘起来

泛函张量积 $\xi^* \otimes \eta^*$ 的定义

对于 $\xi^, \eta^ \in V^$,定义它们在 $V \times V$上的一个函数$\xi^ \otimes \eta^*$,其作用规则为:

$$ (\xi^* \otimes \eta^*)(\alpha, \beta) = \xi^*(\alpha) \cdot \eta^*(\beta) $$

由于 $\xi^$和$\eta^$各自都是线性的,它们乘在一起后,对$\alpha$和$\beta$分别满足分配律与数乘公理,因此$\xi^* \otimes \eta^$必然是一个双线性函数(即$\xi^ \otimes \eta^* \in T_2(V)$)。

基的完备性推导与度量矩阵的秩

设 ${\alpha_1, \dots, \alpha_n}$是$V$ 的一组基,${\alpha_1^, \dots, \alpha_n^}$ 是其对应的对偶基。

我们让构造出来的元素 $\alpha_i^* \otimes \alpha_j^*$去作用基向量对$(\alpha_k, \alpha_s)$:

$$ (\alpha_i^* \otimes \alpha_j^*)(\alpha_k, \alpha_s) = \alpha_i^*(\alpha_k) \cdot \alpha_j^*(\alpha_s) = \delta_{ik} \delta_{js} $$

这个性质非常漂亮,它意味着 $\alpha_i^* \otimes \alpha_j^$是一个*精准的选择器:它只有在输入恰好是第$i$个和第$j$ 个基向量时输出 1,其余情况全部为 0。

因此,如果我们将 $\alpha_i^* \otimes \alpha_j^$视为$T_2(V)$中的元素,它们在基向量上的度量矩阵就是*基础矩阵$E_{ij}$(即只有 $(i,j)$ 处为 1,其余为 0 的矩阵)。

因为 $E_{ij}$构成了矩阵空间$M_n(K)$的基,且$T_2(V)$与$M_n(K)$ 同构,所以:

$$ \{\alpha_i^* \otimes \alpha_j^* \mid 1 \le i, j \le n\} \text{ 构成了双线性函数空间 } T_2(V) \text{ 的一组基} $$

任何一个双线性函数 $f \in T_2(V)$ 都可以唯一地展开为:

$$ f = \sum_{i,j} f(\alpha_i, \alpha_j) \alpha_i^* \otimes \alpha_j^* $$

补充思考:单一乘积项的矩阵特征

若取任意两个普通的线性泛函 $\xi^* = \sum a_i \alpha_i^$和$\eta^ = \sum b_j \alpha_j^$,它们通过张量积组合成一个特殊的双线性函数 $\xi^ \otimes \eta^*$。它在基 ${\alpha_1, \dots, \alpha_n}$ 下的度量矩阵是什么样子的?

根据定义,第 $(i,j)$个基向量对的作用结果为$\xi^(\alpha_i)\eta^(\alpha_j) = a_i b_j$。

所以其余子式的度量矩阵为:

$$ [a_i b_j] = \begin{bmatrix} a_1 \\ \vdots \\ a_n \end{bmatrix} \begin{bmatrix} b_1 & \cdots & b_n \end{bmatrix} $$

这是一个典型的列向量乘以行向量的形式。它的矩阵秩必然为 1。这意味着,单一的泛函乘积形如 $\xi^* \otimes \eta^*$ 只能表达极其特殊的、退化的双线性函数,而通用的双线性函数必须通过这些秩 1 矩阵的线性组合(求和)来生成。

为此,我们也称 $T_2(V)$空间为$V^$与$V^$的张量积空间,记作$V^* \otimes V^* = T_2(V)$。

从双线性映射到抽象张量积空间

1. 从“双线性函数”到“双线性映射”:动机

在上面,我们的双线性函数输出的是标量(数域 $K$中的数)。现在我们要把这个概念泛化:如果输出的不是数字,而是一个全新的线性空间$W$ 中的向量呢?这就是双线性映射

定义:设 $U, V, W$是$K$-线性空间。若映射 $\varphi: U \times V \to W$ 满足对每个元分别保持线性:

  1. $\varphi(k\alpha + l\beta, \gamma) = k\varphi(\alpha, \gamma) + l\varphi(\beta, \gamma)$2.$\varphi(\gamma, k\alpha + l\beta) = k\varphi(\gamma, \alpha) + l\varphi(\gamma, \beta)$则称$\varphi$是由$U \times V$到$W$ 的双线性映射

2. 用“自然同构”刻画张量积空间 $U \otimes V$

双线性映射虽然有用,但它结构太松散(带有两个自变量的乘积分配律)。在数学中,我们更倾向于研究线性的东西。我们能否构造一个足够大的新空间,把“双线性映射”变成这个新空间上的“线性映射”?

通过对 $V$与对偶空间$V^{}$ 的自然同构进行泛化,数学家给出了张量积空间的公理化刻画:

定理:任何有限维 $K$-线性空间 $U$和$V$,都存在一个唯一的线性空间(记为 $U \otimes V$)以及一个特定的双线性映射 $\tau: U \times V \to U \otimes V$(通常将 $\tau(\alpha, \beta)$记作$\alpha \otimes \beta$),使得以下性质成立:

若 ${\alpha_1, \dots, \alpha_m}$是$U$ 的一组基,${\beta_1, \dots, \beta_n}$是$V$ 的一组基,则所有形式化乘积:

$$ \{\alpha_i \otimes \beta_j \mid 1 \le i \le m, 1 \le j \le n\} \text{ 构成 } U \otimes V \text{ 的一组基} $$

3. 维数关系与结论

由于 $U \otimes V$的基底是由$U$的基和$V$ 的基两两组合而成的,我们可以直接清点基向量的个数:

$$ \dim(U \otimes V) = (\dim U) \cdot (\dim V) $$

这一结论极其漂亮,它将两个独立空间以乘法的方式复合在一起,形成了现代代数学中一切多重线性代数(张量分析)的基石。

第一部分:张量积空间 $U \otimes V$ 的显式定义

1. 构造的动机:如何让两个“纯向量”相乘?

在前面的讨论中,我们已经知道如何将两个线性泛函相乘得到一个双线性函数。但现在的任务相反:给定两个普通的线性空间 $U$和$V$,如何不借助外界多余的结构,直接让其中的向量 $\alpha \in U$和$\beta \in V$做“乘法”$\alpha \otimes \beta$?

数学家利用了“双重对偶”的思想:向量空间 $U$中的一个向量$\alpha$,可以自然地看作是其对偶空间 $U^$上的一个线性泛函(即$\alpha(\xi^) = \xi^*(\alpha)$)。

既然 $\alpha$和$\beta$ 可以伪装成线性泛函,那么我们就可以模仿上一节的做法,将它们作为泛函“乘”起来。

2. 显式定义

我们将 $U$与$V$ 的张量积空间定义为:

$$ U \otimes V \triangleq T_2(U^*, V^*) $$

也就是说,$U \otimes V$本质上是定义在对偶空间对$U^* \times V^*$ 上的所有双线性函数构成的空间。

对于任给的向量对 $(\alpha, \beta) \in U \times V$,我们构造一个具体的双线性函数 $\alpha \otimes \beta \in T_2(U^, V^)$,其作用规则定义为:

$$ (\alpha \otimes \beta)(\xi^*, \eta^*) \triangleq \xi^*(\alpha) \eta^*(\beta), \quad \forall \xi^* \in U^*, \eta^* \in V^* $$

这里通过将 $\alpha, \beta$分别看成$U^$与$V^$上的线性泛函,使这个定义完全合法。我们称双线性函数$\alpha \otimes \beta$为向量$\alpha$与$\beta$ 的张量积

第二部分:张量积运算的性质与基底证明

1. 双线性映射特性的验证

我们有了映射 $\otimes: U \times V \to U \otimes V, (\alpha, \beta) \mapsto \alpha \otimes \beta$。容易验证,它是一个双线性映射。这意味着它对两个自变量分别满足分配律与数乘交织律:

  • 左分配律:$(\alpha + \beta) \otimes \gamma = \alpha \otimes \gamma + \beta \otimes \gamma$

  • 右分配律:$\alpha \otimes (\beta + \gamma) = \alpha \otimes \gamma + \alpha \otimes \gamma$

  • 数乘结合律:$(k\alpha) \otimes \beta = k(\alpha \otimes \beta) = \alpha \otimes (k\beta)$

2. 基底的完备性推导(核心证明)

定理:设 ${\alpha_1, \dots, \alpha_m}$是$U$ 的一组基,${\beta_1, \dots, \beta_n}$是$V$的一组基。则${\alpha_i \otimes \beta_j \mid 1 \le i \le m, 1 \le j \le n}$构成$U \otimes V$ 的一组基。

【证明步骤与动机】

  1. 引入对偶结构:为了研究 $\alpha_i \otimes \beta_j$的行为,我们引入它们对应的对偶基。设${\alpha_1^, \dots, \alpha_m^} \in U^$和${\beta_1^, \dots, \beta_n^} \in V^$ 分别是原空间基底的对偶基。

  2. 基底对的作用:让构造的张量积基底去吞对偶基向量对 $(\alpha_k^, \beta_s^)$:

$$ (\alpha_i \otimes \beta_j)(\alpha_k^*, \beta_s^*) = \alpha_k^*(\alpha_i) \cdot \beta_s^* (\beta_j) = \delta_{ik} \delta_{js} $$

这表明,双线性函数 $\alpha_i \otimes \beta_j$在基底对下的度量矩阵恰好是矩阵空间中的基础矩阵$E_{ij}$(即只有 $(i,j)$ 处为 1,其余为 0)。

  1. 同构过渡:因为双线性函数空间 $T_2(U^, V^)$与度量矩阵空间$M_{m,n}(K)$是同构的,而基础矩阵$E_{ij}$构成了$M_{m,n}(K)$的一组基,所以这$m \times n$个张量积元素$\alpha_i \otimes \beta_j$也必然构成$U \otimes V$ 的一组基。

  2. 任意元素的展开:任意一个属于张量积空间的双线性函数 $f \in T_2(U^, V^)$ 都可以唯一地表示为:

$$ f = \sum_{i,j} f(\alpha_i^*, \beta_j^*) \, \alpha_i \otimes \beta_j $$

这实际上与之前的泛函张量积是完全一样的路数。

第三部分:从具体二元运算到抽象泛性(Universal Property)的过渡

1. 统一视角:常见的双线性映射

在多元代数中,我们其实已经接触过非常多满足“双线性”的二元运算,例如:

  • 三维欧氏空间中的向量叉积:$\vec{a} \times \vec{b}$,满足对两边向量的加法分配律。

  • 矩阵环 $M_n(K)$(或 $K$-代数)中的矩阵乘法:$A \cdot B$,满足 $A(B+C) = AB + AC$以及$(kA)B = k(AB)$。

这些运算表面上形态各异,但其底层逻辑完全一致:它们都是从一个笛卡尔积空间 $U \times V$ 出发,映射到一个目标线性空间的双线性映射

2. 更高级的数学动机:寻找“最原始的模型”

既然有这么多双线性映射,数学家提出了一个极具野心的宏观问题:

给定一个线性空间 $V$,如何用线性映射去刻画从 $V \times V$ 产生的所有双线性映射?

这些五花八门的双线性映射背后,有没有一个最原始、最通用的“母体模型”?

这就迫使我们跳出具体的对偶空间显式构造,走向范畴论中的泛性刻画(Universal Property)。张量积空间就是这个“最原始的模型”,它能够把结构复杂的“双线性映射”,完美地“线性化”为新空间上的普通线性映射。这一刻画将在接下来的“泛性刻画”中展开。

张量积的泛性定义、唯一性与存在性证明

第一部分:张量积的泛性刻画(Universal Property)

1. 核心动机:将“双线性”化为“线性”

在传统线性代数中,线性映射是最容易研究的对象。然而,双线性映射 $\psi: U \times V \to W$的底层空间是笛卡尔积$U \times V$,它不是一个线性的代数复合体(例如,$\psi(\alpha+\beta, \gamma+\delta)$ 无法直接拆成简单的线性项)。

为了解决这个不便,数学家的核心动机是:能否构造一个“中转站”空间(记为 $U \otimes V$),把所有的双线性映射都归结为这个中转站上的“普通线性映射”? 这样,整个多重线性代数就可以全部退化为普通的线性代数来处理。

2. 泛性定理与公理化定义

定理(张量积的泛性定义):任意给定的 $K$-线性空间 $U$和$V$,存在一个线性空间(记作 $U \otimes V$)以及一个从原空间出发的“纯净”双线性映射 $\varphi: U \times V \to U \otimes V$。它们组成的二元组 $(U \otimes V, \varphi)$ 满足以下公理化条件:

若 $\psi$是从$U \times V$到任意$K$-线性空间 $W$的双线性映射,则存在且仅存在唯一的一个线性映射$\sigma: U \otimes V \to W$,使得以下交换图表成立(即满足映射复合 $\psi = \sigma \circ \varphi$):

直观理解

$(U \otimes V, \varphi)$是$U \times V$发出的所有双线性映射的 “第一站”。它是最纯净、最具有代表性的双线性结构。只要知道了第一站的行为,通过线性映射$\sigma$,你就能唯一的还原出通往任何终点空间 $W$的双线性映射$\psi$。也就是说:研究 $U \times V$上的双线性映射,等价于研究$U \otimes V$ 上的线性映射

第二部分:张量积在同构意义下的“唯一性”证明

1. 证明的动机

既然泛性是用一种“宏观行为(图表交换)”来定义一个对象的,那么首要解决的问题就是:满足这个行为的空间是唯一的吗?如果换一个人构造,会不会构造出完全不同的代数结构?

数学家利用了范畴论中非常经典的“正反合(交换图表交织)”方法,来证明张量积在同构意义下是唯一的。

2. 完备推导步骤

设 $(U \otimes V, \varphi)$和$(Z, \psi)$是$U, V$ 的两组同时满足泛性条件的张量积。

  1. 第一步(顺推):将 $(Z, \psi)$视为定义中的任意双线性映射,而$(U \otimes V, \varphi)$视为张量积母体。根据泛性,存在唯一的线性映射$\sigma: U \otimes V \to Z$,使得:

$$ \psi = \sigma \circ \varphi $$

  1. 第二步(逆推):反过来,将 $(U \otimes V, \varphi)$视为任意双线性映射,而$(Z, \psi)$视为张量积母体。根据泛性,存在唯一的线性映射$\tau: Z \to U \otimes V$,使得:

$$ \varphi = \tau \circ \psi $$

  1. 第三步(复合与自反):将两式互相代入,有:

$$ \psi = \sigma \circ (\tau \circ \psi) = (\sigma \circ \tau) \circ \psi $$

$$ \varphi = \tau \circ (\sigma \circ \varphi) = (\tau \circ \sigma) \circ \varphi $$

对应的交换图表如下:

  1. 第四步(利用唯一性一锤定音)

    如果我们把 $\psi$映射到自身$\psi: U \times V \to Z$,根据泛性,能使图表交换的线性映射是唯一的。显然,恒等映射 $\text{id}_Z$ 满足条件。

    但是第三步中我们发现 $\sigma \circ \tau$ 也满足条件($(\sigma \circ \tau) \circ \psi = \psi$)。

    由于这种线性映射的唯一性,这两个映射必须相等:

$$ \sigma \circ \tau = \text{id}_Z $$

同理可证:

$$ \tau \circ \sigma = \text{id}_{U \otimes V} $$

结论:$\sigma$与$\tau$互为逆映射,因此$\sigma: U \otimes V \to Z$ 是一个线性同构。这说明任何满足泛性的张量积空间在代数结构上是完全相同的。

第三部分:有限维线性空间张量积的“存在性”与具体基底验证

唯一性证明完毕后,我们必须要确定这样的空间切实存在。对于有限维空间,我们可以直接利用上一节构造的双线性泛函空间 $T_2(U^, V^)$ 作为其实体模型,并验证它完全符合上述泛性公理。

1. 实体模型的引入与双线性验证

定义具体空间 $U \otimes V = T_2(U^, V^)$。定义具体的初始映射为:

$$ \varphi: U \times V \to U \otimes V, \quad (\alpha, \beta) \mapsto \alpha \otimes \beta $$

其中 $(\alpha \otimes \beta)(\xi^, \eta^) = \xi^(\alpha)\eta^(\beta)$。

极易验证 $\varphi$满足对各项自变量的加法分配律与数乘交织律,因此$\varphi$ 确为双线性映射。

2. 利用基底证明该模型满足泛性(核心推导)

要证明这个具体模型满足泛性,我们需要对任意双线性映射 $\psi: U \times V \to W$,显式地构造出那个唯一的线性映射 $\sigma: U \otimes V \to W$。

  1. 取基底与对偶基:设 ${\alpha_1, \dots, \alpha_m}$和${\beta_1, \dots, \beta_n}$分别是$U, V$ 的基。由前述知识可知,${\alpha_i \otimes \beta_j}$构成了具体空间$T_2(U^, V^)$ 的一组基。

  2. 显式规定线性映射的像

    普通线性代数定理告诉我们:一个线性映射只要规定好它在一组基上的取值,这个线性映射就被唯一确定。

    因此,为了强行让 $\sigma(\varphi(\alpha_i, \beta_j)) = \psi(\alpha_i, \beta_j)$成立,我们别无选择,必须直接定义$\sigma$ 在基底上的取值为:

$$ \sigma(\alpha_i \otimes \beta_j) \triangleq \psi(\alpha_i, \beta_j), \quad \forall i, j $$

由于 ${\alpha_i \otimes \beta_j}$是基,这样一个线性映射$\sigma: U \otimes V \to W$ 存在且唯一。

  1. 验证任意向量的图表交换性

    由于线性映射 $\sigma \circ \varphi$与双线性映射$\psi$在基向量对${\alpha_i}$与${\beta_j}$ 上的作用结果完全一致,两边的度量矩阵项完全相同。根据线性扩张原理,它们在全空间的所有任意向量上必然也处处相等:

$$ \sigma \circ \varphi = \psi $$

总结:这完成了逻辑的闭环——我们不仅通过宏观的“泛性”公理规定了张量积应该具有的完美形态,还通过具体的“对偶空间双线性泛函”在有限维情况下完美地把这个空间实现了出来。

阅读全文

笔记12.Euclid空间,正交变换与对称变换

线代 2026/5/26

从非标准内积到图像的参数权重

在实线性空间 $V$ 上,一个满足正定性($\forall \alpha \neq 0, f(\alpha, \alpha) > 0$)与对称性的双线性函数 $f$被定义为内积。这意味着$f$是内积,等价于二次型$f(\alpha, \alpha)$正定,也等价于$f$ 的度量矩阵是正定矩阵。

若我们在空间中选定一组基 $\alpha_1, \dots, \alpha_n$,任意向量 $\alpha$在该基下的坐标记为列向量$X$。利用双线性性质,内积的计算可以完全由基向量两两之间的内积决定:

$$ f(\alpha, \alpha) = \sum_{i=1}^n \sum_{j=1}^n x_i x_j f(\alpha_i, \alpha_j) = X^T \begin{bmatrix} f(\alpha_1, \alpha_1) & \cdots & f(\alpha_1, \alpha_n) \\ \vdots & \ddots & \vdots \\ f(\alpha_n, \alpha_1) & \cdots & f(\alpha_n, \alpha_n) \end{bmatrix} X $$

这个夹在中间的对称正定矩阵,便是 $f$ 在该基下的度量矩阵(Metric Matrix)。

动机:为什么我们需要非标准内积?

传统的标准内积(如点积)平等地对待空间的每一个维度。但在现实世界(如JPEG图像压缩算法)中,数据不同的分量所包含的视觉重要性是不同的。我们需要通过非标准内积来调节特定参数的权重。在图像中,人类视觉系统对低频信息(如大面积的颜色渐变)比高频信息(如细腻的纹理细节)更为敏感。度量矩阵的存在,允许我们在数学上赋予低频和高频不同的“尺子”去度量它们。

图像空间的基底解构与余弦变换


在具体的图像处理中,每次截取一个 $8 \times 8$的子阵(如一幅战斗机图像中的局部灰度块),这个子阵可以看作是$8 \times 8$实矩阵空间$M_{8,8}(\mathbb{R})$中的一个向量$X$。

既然 $X$是一个向量,我们自然希望找到一组优雅的基底来表示它。若$\alpha_0, \alpha_1, \dots, \alpha_7$是某种一维变换的一组基,那么通过外积构造的$64$个矩阵${\alpha_i \alpha_j^T} ; (0 \le i, j \le 7)$恰好构成了二维矩阵空间$M_{8,8}(\mathbb{R})$ 的一组基底。

为了让基底具备良好的几何性质(不改变能量总和,且便于解耦),我们引入正交矩阵(Orthogonal Matrix) $C$。这里采用的是离散余弦变换(DCT)的正交矩阵:

$$ C = \begin{bmatrix} \alpha_0 & \alpha_1 & \cdots & \alpha_7 \end{bmatrix} \in M_8(\mathbb{R}) $$

其列向量按由低频到高频的顺序排列:

$$ C = \frac{1}{2} \begin{bmatrix}

\frac{1}{\sqrt{2}} & \cos\frac{\pi}{16} & \cos\frac{2\pi}{16} & \cdots & \cos\frac{7\pi}{16} \

\frac{1}{\sqrt{2}} & \cos\frac{3\pi}{16} & \cos\frac{6\pi}{16} & \cdots & \cos\frac{7 \times 3\pi}{16} \

\vdots & \vdots & \vdots & \ddots & \vdots \

\frac{1}{\sqrt{2}} & \cos\frac{15\pi}{16} & \cos\frac{30\pi}{16} & \cdots & \cos\frac{7 \times 15\pi}{16}

\end{bmatrix}
$$

系数矩阵的完整推导:从分块乘法到双侧投影

现在面临的核心问题是:如何计算图像 $X$在基底${\alpha_i \alpha_j^T}$下线性表出的系数$b_{ij}$?

我们已知:

$$ X = \sum_{0 \le i, j \le 7} b_{ij} \alpha_i \alpha_j^T $$

动机:直接对 64 个基矩阵列方程组求导极其繁琐。 我们需要利用分块乘法(Block Multiplication)和矩阵的整体结构将求和号($\Sigma$)打包。

推导过程:

注意到系数 $b_{ij}$可以排成一个$8 \times 8$的矩阵$B = [b_{ij}]$。我们将上式改写为矩阵乘法形式。

由于 $\alpha_i$是正交矩阵$C$的第$i$个列向量,如果我们考察矩阵乘积$C B C^T$,利用分块乘法的展开:

$$ C B C^T = \begin{bmatrix} \alpha_0 & \alpha_1 & \cdots & \alpha_7 \end{bmatrix}

\begin{bmatrix}

b_{00} & b_{01} & \cdots & b_{07} \

b_{10} & b_{11} & \cdots & b_{17} \

\vdots & \vdots & \ddots & \vdots \

b_{70} & b_{71} & \cdots & b_{77}

\end{bmatrix}

\begin{bmatrix} \alpha_0^T \ \alpha_1^T \ \vdots \ \alpha_7^T \end{bmatrix}
$$

根据矩阵乘法的行列向量展开法则,中间的系数矩阵 $B$ 实际上在对两边的基向量进行线性组合,展开后恰好等于:

$$ \sum_{i=0}^7 \sum_{j=0}^7 b_{ij} \alpha_i \alpha_j^T $$

这正是我们的原始图像 $X$。因此,我们得到了极其优美的等式:

$$ X = C B C^T $$

为了解出系数矩阵 $B$,由于 $C$是正交矩阵,满足$C^T C = C C^T = I$(即 $C^{-1} = C^T$)。我们在等式两边左乘 $C^T$,右乘 $C$:

$$ C^T X C = C^T (C B C^T) C = (C^T C) B (C^T C) = I B I = B $$

由此,成功表出系数矩阵

$$ \mathbf{B = [b_{ij}] = C^T X C} $$

而在解压(重构图像)时,只需通过反解公式即可恢复图像:

$$ \mathbf{X = C B C^T} $$

量化:非标准内积思想的现实落地

得到系数矩阵 $B$ 后,图像压缩的最关键步骤是量化(Quantization)。这一步是为了丢弃人类视觉不易察觉的高频信息。

具体而言,让表出系数 $b_{ij}$乘以相应的权重$1/q_{ij}$(即除以 $q_{ij}$)后取整,排成量化后的矩阵 $D$:

$$ D = [d_{ij}]_{0 \le i, j \le 7}, \quad \mathbf{d_{ij} = \text{round}(b_{ij} / q_{ij})} $$

这里的 $Q_{50} = [q_{ij}]$ 是由专家统一规范的量化矩阵(例如标准 JPEG 量化表):

$$ Q_{50} = \begin{bmatrix}

16 & 11 & 10 & \cdots & 61 \

12 & 12 & 14 & \cdots & 55 \

14 & 13 & 16 & \cdots & 56 \

\vdots & \vdots & \vdots & \ddots & \vdots \

72 & 92 & 95 & \cdots & 99

\end{bmatrix}
$$

动机与机制评估:

  • 优势(左上角低频区):$q_{ij}$ 较小。这意味着除数小,保留的步长细腻,保留的信息多。因为左上角对应的是图像的直流分量和大轮廓,对视觉效果决定性最高。

  • 劣势/风险(右下角高频区):$q_{ij}$较大。除数很大,导致许多微小的高频系数$b_{ij}$ 经除法并取整后直接变成了 $0$。这虽然导致精度变低、丢失了边缘细节,但由于人类眼睛对高频不敏感,这种局部的“模糊”换来了海量数据空间的释放。

这种非对称的量化矩阵 $Q$,本质上就是前文提到的非标准内积在离散空间中的投影机制——通过人为定义空间各个维度的重要性(度量矩阵),实现对特定参数权重的精准调节。

Euclid空间

欧氏空间:赋予线性空间“度量”

在纯粹的线性空间中,我们只能谈论向量的“加法”和“数乘”,那里没有长短,没有远近,也没有夹角。为了让空间具备几何直观,我们必须引入内积

具有内积 $(\alpha, \beta)$ 的(有限维)实线性空间被称为欧氏空间(Euclidean space)。有了内积,欧氏空间上便自然生长出了向量长度(模)、夹角、距离、正交等一系列度量(Metric)的概念。

1. 向量的长短(范数)

若 $\alpha = [\alpha_1, \alpha_2, \dots, \alpha_n] X \in V$,即 $X$是$\alpha$在某组基下的坐标。我们定义$\alpha$ 的长度(或称欧氏范数)为:

$$ \|\alpha\| := \sqrt{(\alpha, \alpha)} = \sqrt{X^T A X} $$

其中 $A$是该组基下的度量矩阵。有了长度,任意两点$\alpha, \beta$ 终点间的欧氏距离便能自然地定义为两点差向量的长度:

$$ \text{Distance}(\alpha, \beta) := \|\alpha - \beta\| $$

核心不等式的构建与完整推导

在欧氏空间中,一切几何直观(如“两点之间线段最短”、“阴影长度小于原长”)的数学基石,都源于两个至关重要的大定理:柯西-施瓦茨不等式三角不等式

1. 柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)

定理内容:$|\alpha| |\beta| \ge |(\alpha, \beta)|$

动机:我们直观上知道,两向量的内积等于长度相乘再乘以夹角的余弦值($\cos\theta$)。因为 $|\cos\theta| \le 1$,所以内积绝对值必然小于等于长度之积。但这是三维空间的结论,在抽象的欧氏空间中,我们甚至还没有定义“夹角”,因此必须完全脱离几何直观,纯粹从内积的正定性出发进行严密推导。

完整推导过程

考虑引入一个任意实数 $t$,构造一个构造性向量 $\alpha - t\beta$。根据内积的正定性,任何向量与自身的内积都必须大于等于 0:

$$ (\alpha - t\beta, \alpha - t\beta) \ge 0 $$

利用内积的双线性与对称性,将上式展开:

$$ (\alpha, \alpha) - 2t(\alpha, \beta) + t^2(\beta, \beta) \ge 0 $$

这是一个关于 $t$的一元二次不等式$A t^2 + B t + C \ge 0$,它对任意实数 $t$ 都成立。

为了让不等式暴露出我们想要的结构,我们可以取那个使该二次函数达到最小值的对称轴位置,即令 $t = \frac{(\alpha, \beta)}{(\beta, \beta)}$(假设 $\beta \neq 0$)。

将 $t$ 代入展开式中:

$$ (\alpha, \alpha) - 2\frac{(\alpha, \beta)^2}{(\beta, \beta)} + \frac{(\alpha, \beta)^2}{(\beta, \beta)^2}(\beta, \beta) \ge 0 $$

$$ (\alpha, \alpha) - \frac{(\alpha, \beta)^2}{(\beta, \beta)} \ge 0 $$

两边同乘 $(\beta, \beta)$ 并移项,立即得到:

$$ (\alpha, \alpha)(\beta, \beta) \ge (\alpha, \beta)^2 $$

两边开平方根,由于 $|\alpha| = \sqrt{(\alpha, \alpha)}$,最终导出:

$$ \|\alpha\| \|\beta\| \ge |(\alpha, \beta)| $$

等号成立条件:当且仅当判别式为 0,即存在某个 $t$使得$\alpha - t\beta = 0$,这意味着 $\alpha$与$\beta$ 共线(线性相关)

2. 欧氏距离满足三角不等式(Triangle Inequality)

定理内容

$$ \|\alpha\| + \|\beta\| \ge \|\alpha + \beta\| $$

动机:这在几何上对应“三角形两边之和大于第三边”。在数学上,它是验证一个度量能否被称为“距离”或“范数”的核心条件。我们需要利用前面刚刚证明的柯西-施瓦茨不等式来完成这个推导。

完整推导过程

我们从和向量的模平方出发:

$$ \|\alpha + \beta\|^2 = (\alpha + \beta, \alpha + \beta) $$

利用内积的分配律展开:

$$ (\alpha + \beta, \alpha + \beta) = (\alpha, \alpha) + 2(\alpha, \beta) + (\beta, \beta) = \|\alpha\|^2 + 2(\alpha, \beta) + \|\beta\|^2 $$

此时,为了放大该式,我们隐去可能为负的内积 $(\alpha, \beta)$,代之以其余弦放大的上限。根据柯西-施瓦茨不等式,有 $(\alpha, \beta) \le |(\alpha, \beta)| \le |\alpha| |\beta|$。

将其代入上式进行不等式放大:

$$ \|\alpha\|^2 + 2(\alpha, \beta) + \|\beta\|^2 \le \|\alpha\|^2 + 2\|\alpha\| \|\beta\| + \|\beta\|^2 $$

注意到右边恰好是一个完全平方式:

$$ \|\alpha\|^2 + 2\|\alpha\| \|\beta\| + \|\beta\|^2 = (\|\alpha\| + \|\beta\|)^2 $$

综上,我们得到了:

$$ \|\alpha + \beta\|^2 \le (\|\alpha\| + \|\beta\|)^2 $$

两边同时开方,由于模长皆为正数,不等号方向不变:

$$ \|\alpha\| + \|\beta\| \ge \|\alpha + \beta\| $$

几何大厦的基石,至此在代数上完成了交汇。

空间的泛化:函数空间与矩阵空间中的体现

欧氏空间的伟大之处在于,只要定义了符合条件的内积,函数矩阵也可以像常规向量一样拥有“长度”、“距离”与“三角不等式”。

示例 1:连续函数空间 $C[0,1]$在区间$[0,1]$ 上的连续函数空间中,若我们将内积定义为积分:

$$ (h, g) = \int_{0}^{1} h(x)g(x)dx $$

那么,柯西-施瓦茨不等式在此空间中表现为著名的积分形式的柯西不等式

$$ \int_{0}^{1} h(x)^2dx \int_{0}^{1} g(x)^2dx \ge \left( \int_{0}^{1} h(x)g(x)dx \right)^2 $$

而其对应的三角不等式,则刻画了函数叠加后的能量边界:

$$ \sqrt{\int_{0}^{1} h(x)^2dx} + \sqrt{\int_{0}^{1} g(x)^2dx} \ge \sqrt{\int_{0}^{1} (h(x)+g(x))^2dx} $$

示例 2:实矩阵空间 $M_n(\mathbb{R})$对于$n$ 阶实矩阵,若我们将内积定义为迹(Trace)的乘积:

$$ (A, B) = \text{tr}(A^T B) $$

这被称为 Frobenius 内积。根据统一的欧氏空间定理,两矩阵必然满足:

$$ \text{tr}(A^T A) \text{tr}(B^T B) \ge \text{tr}(A^T B)^2 $$

且其矩阵范数(类似于矩阵的长度)同样严丝合缝地满足三角不等式:

$$ \sqrt{\text{tr}(A^T A)} + \sqrt{\text{tr}(B^T B)} \ge \sqrt{\text{tr}((A+B)^T (A+B))} $$

等号成立条件:当且仅当矩阵 $A$与$B$线性相关(即存在常数$k$使得$A = kB$)。

从最初的图像像素块 Z 字形打包,到抽象矩阵的迹,线性代数用统一的不等式结构,优雅地约束了多维世界中一切“长度”与“投影”的极限。

我们已经能够测量向量的“长短”与“远近”。现在,我们将进一步引入夹角正交性

通过这些工具,我们将在线性空间中复刻高中的“垂线段最短”定理,并在高维空间中建立起极为优美的几何结构——正交补(Orthogonal Complement)正交投影(Orthogonal Projection)

夹角与标准正交基:将几何直观代数化

在证明了柯西-施瓦茨不等式 $|\alpha||\beta| \ge |(\alpha, \beta)|$后,对于任意两个非零向量$\alpha, \beta$,其商式必然满足:

$$ -1 \le \frac{(\alpha, \beta)}{\|\alpha\|\|\beta\|} \le 1 $$

这在数学上赋予了我们定义向量夹角 $\theta$ 的合法性。我们定义:

$$ \cos\theta = \frac{(\alpha, \beta)}{\|\alpha\|\|\beta\|} \quad (\alpha \neq 0, \beta \neq 0) $$

利用代数变形,我们可以极其漂亮地写出:

$$ 2\cos\theta \|\alpha\|\|\beta\| = \|\alpha\|^2 + \|\beta\|^2 - \|\alpha - \beta\|^2 $$

特别地,当 $\theta = 90^\circ$ 时,$\cos\theta = 0$,此时我们称两个向量正交(Orthogonal),记作 $\alpha \perp \beta$,其代数充要条件即为内积为零:

$$ \alpha \perp \beta \iff (\alpha, \beta) = 0 $$

标准正交基(Orthonormal Basis)

由两两正交且长度均为 $1$(单位向量)的基底构成的基,称为欧氏空间的标准正交基。一组基 $\alpha_1, \dots, \alpha_n$是标准正交基,等价于它们两两之间的内积构成的度量矩阵恰好为单位矩阵$I$:

$$ \begin{bmatrix} (\alpha_1, \alpha_1) & (\alpha_1, \alpha_2) & \cdots & (\alpha_1, \alpha_n) \\ (\alpha_2, \alpha_1) & (\alpha_2, \alpha_2) & \cdots & (\alpha_2, \alpha_n) \\ \vdots & \vdots & \ddots & \vdots \\ (\alpha_n, \alpha_1) & \alpha_n, \alpha_2) & \cdots & (\alpha_n, \alpha_n) \end{bmatrix} = I $$

命题变形与基变换

设 $\alpha_1, \dots, \alpha_n$ 是欧氏空间的一组标准正交基,$P$是$n$阶实可逆矩阵。令新基底与旧基底满足过渡关系$(\beta_1 \cdots \beta_n) = (\alpha_1 \cdots \alpha_n)P$。

那么,$\beta_1, \dots, \beta_n$也是标准正交基的充要条件是$P$为正交矩阵(即$P^T P = I$)。

  • 证明动机:新基底下的内积度量矩阵可以通过过渡矩阵进行合同变换。由于旧基底是标准正交基(度量矩阵为 $I$),新基底下的度量矩阵直接表示为 $P^T I P = P^T P$。要让新基底也是标准正交基,其度量矩阵必须也为 $I$,故 $P^T P = I$。

正交变换

正交补:子空间的完美对称

当我们从单个向量的正交扩展到整个子空间时,便诞生了正交补的概念。

设 $W$是欧氏空间$V$的子空间,所有与$W$中任意向量都正交的向量所构成的集合,称为$W$的正交补,记作$W^\perp$:

$$ W^\perp := \{ \alpha \in V \mid (\alpha, \beta) = 0, \; \forall \beta \in W \} $$

$W^\perp$同样是$V$的子空间。通过将$W$的标准正交基$\alpha_1, \dots, \alpha_r$扩充为整个$V$空间的标准正交基$\alpha_1, \dots, \alpha_r, \alpha_{r+1}, \dots, \alpha_n$,后半部分 $\alpha_{r+1}, \dots, \alpha_n$自然顺理成章地成为了$W^\perp$ 的一组标准正交基。

正交补的几何性质——包含关系反向

正交补算子具有非常优美的代数对称性,类似于集合论中的补集,但它保持了线性结构的完整:

  • 直和分解:$W \oplus W^\perp = V$(整个空间可以被唯一地拆分为$W$部分和垂直于$W$ 的部分)。

  • 双重正交补还原:$(W^\perp)^\perp = W$。

  • 包含关系反向:$W \subseteq U \iff W^\perp \supseteq U^\perp$ (空间越大,能与其保持垂直的向量就越少)。

  • 对偶运算法则:$(U + W)^\perp = U^\perp \cap W^\perp$;$(U \cap W)^\perp = U^\perp + W^\perp$。

正交投影:从“垂线段最短”到双侧投影算子

现在我们引入全篇最核心的几何操作——正交投影(Orthogonal Projection)

如图所示,设 $\alpha$是整个空间$V$中的一个向量,我们想在子空间$W$中找到一个最佳逼近向量$\beta$。

根据直和分解 $V = W \oplus W^\perp$,任意向量 $\alpha$ 都可以被唯一地分解为:

$$ \alpha = \beta + (\alpha - \beta), \quad \text{其中 } \beta \in W, \; (\alpha - \beta) \in W^\perp $$

此时,$\beta$被称为$\alpha$在子空间$W$上的正交投影,而差向量$\alpha - \beta$则垂直于整个子空间$W$(即 $\alpha - \beta \perp W$)。

动机:为什么要大费周章地证明差向量垂直?

因为在几何上,垂线段最短。对 $W$内的任意其他向量$\gamma \in W$,由于 $\beta - \gamma \in W$,而 $\alpha - \beta \perp W$,故 $\alpha - \beta \perp \beta - \gamma$。根据勾股定理(毕达哥拉斯定理),三角形的斜边平方等于两直角边平方和:

$$ \|\alpha - \gamma\|^2 = \|\alpha - \beta\|^2 + \|\beta - \gamma\|^2 \ge \|\alpha - \beta\|^2 $$

从而完美导出:

$$ \|\alpha - \beta\| \le \|\alpha - \gamma\| $$

这表明,正交投影 $\beta$是子空间$W$中距离$\alpha$ 最近的唯一点。在数据科学中,这正是“最小二乘法”与“最优逼近”的几何本质。

投影向量与投影矩阵的完整推导

我们如何具体计算出这个投影向量 $\beta$ 呢?这取决于我们手里拥有什么样的基底。

1. 已知子空间正交基

若 $\beta_1, \dots, \beta_r$是子空间$W$的一组正交基(长度不一定为 1)。由于$\beta \in W$,我们可以将 $\beta$ 表出为:

$$ \beta = k_1 \beta_1 + k_2 \beta_2 + \cdots + k_r \beta_r $$

由于 $\alpha - \beta \perp W$,它必须与每一个基向量 $\beta_i$ 保持正交。由此建立内积方程:

$$ (\alpha - \beta, \beta_i) = 0 \implies (\alpha, \beta_i) = (\beta, \beta_i) $$

将 $\beta$的展开式代入右侧,利用基向量两两正交(当$j \neq i$时$(\beta_j, \beta_i) = 0$),右侧的求和项瞬间塌陷,只剩下一项:

$$ (\alpha, \beta_i) = k_i (\beta_i, \beta_i) \implies k_i = \frac{(\alpha, \beta_i)}{(\beta_i, \beta_i)} $$

成功求出投影向量公式

$$ \beta = \frac{(\alpha, \beta_1)}{(\beta_1, \beta_1)}\beta_1 + \frac{(\alpha, \beta_2)}{(\beta_2, \beta_2)}\beta_2 + \cdots + \frac{(\alpha, \beta_r)}{(\beta_r, \beta_r)}\beta_r $$

2. 标准内积下的正交投影矩阵 $B B^T$若$\beta_1, \dots, \beta_r$是子空间$W$的一组标准正交基(此时分母$(\beta_i, \beta_i) = 1$),且在标准内积下,内积可以写为矩阵乘法 $(\alpha, \beta_i) = \beta_i^T \alpha$。

推导算子形式

此时上面的公式简化为:

$$ \beta = (\beta_1^T \alpha)\beta_1 + (\beta_2^T \alpha)\beta_2 + \cdots + (\beta_r^T \alpha)\beta_r $$

由于内积 $\beta_i^T \alpha$是一个纯量(数),我们可以把它写在向量$\beta_i$的右侧(即$\beta_i (\beta_i^T \alpha)$),利用矩阵乘法的结合律提出来:

$$ \beta = \sum_{i=1}^r \beta_i \beta_i^T \alpha = \left( \sum_{i=1}^r \beta_i \beta_i^T \right) \alpha $$

现在,我们将标准正交基按列排成一个矩阵 $B = [\beta_1 \cdots \beta_r]$。根据分块矩阵的乘法展开法则,外积之和 $\sum_{i=1}^r \beta_i \beta_i^T$恰好可以打包写成矩阵与其转置的乘积$B B^T$。

同时,我们也可以从坐标投影的角度来审视这个过程。将公式写为矩阵的分块形式:

$$ \beta = [\beta_1 \cdots \beta_r] \begin{bmatrix} \beta_1^T \alpha \\ \vdots \\ \beta_r^T \alpha \end{bmatrix} = B (B^T \alpha) = \mathbf{B B^T \alpha} $$

其中,乘积中夹在中间的列向量 $B^T \alpha$ 恰好就是投影向量在子空间这组标准正交基下的投影坐标

由于 $\beta_1, \dots, \beta_r$是标准正交基,显然满足$B^T B = I_r$。我们考察这个新诞生的矩阵算子 $P_W = B B^T$:

  • 幂等性(再投影不变):$P_W^2 = (B B^T)(B B^T) = B (B^T B) B^T = B I_r B^T = B B^T = P_W$。这在几何上极其直观——一幅图像向平面投影一次之后,再投影一次,位置不会发生任何改变。

  • 对称性:$P_W^T = (B B^T)^T = B B^T = P_W$。

这个极其简炼的矩阵 $\mathbf{B B^T}$便是标准内积下的正交投影矩阵,它像一把手术刀,能够瞬间将任意高维向量中属于子空间$W$ 的视觉或信号分量完好无损地剥离出来。

以一个具体的经典综合题为核心,将前面所学的内积判别施密特正交化(Gram-Schmidt)矩阵的 QR 分解以及合同变换法融会贯通。通过双视角(解法 1:几何投影流;解法 2:代数矩阵流)的拆解,深刻揭示其背后的几何动机。

示例

题目:已知 $\mathbb{R}^3$上的双线性函数$f(\alpha, \beta)$在基$\alpha_1, \alpha_2, \alpha_3$ 下的度量矩阵为:

$$ A = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 3 \end{bmatrix} $$

  1. $f(\alpha, \beta)$是$\mathbb{R}^3$上的内积吗?如果是,求$f$的一组标准正交基$\beta_1, \beta_2, \beta_3$。

  2. 求 $\alpha_3$到子空间$W = \langle\alpha_1, \alpha_2\rangle$ 的距离。

核心前置判别:它合法吗?

由于 $A^T = A$,$A$显然是一个实对称矩阵,因此$f$满足对称性。要判断$f$是否为内积,只需检验$A$ 的正定性

观察 $A$ 的各阶顺序主子式:

  • 1 阶顺序主子式:$\Delta_1 = 1 > 0$

  • 2 阶顺序主子式:$\Delta_2 = \begin{vmatrix} 1 & 1 \ 1 & 2 \end{vmatrix} = 2 - 1 = 1 > 0$

  • 3 阶顺序主子式:$\Delta_3 = \det(A) = 1 \cdot (6 - 1) - 1 \cdot (3 - 0) = 5 - 3 = 2 > 0$根据霍尔维茨定理(Sylvester’s Criterion),所有顺序主子式均大于 0,故度量矩阵$A$ 正定,$f$确实是$\mathbb{R}^3$ 上的一个非标准内积

解法 1:几何投影流(施密特正交化与 QR 分解)

动机:利用逐层剥离正交投影的思想,将一组普通的基打磨成标准正交基。在此过程中,自然的副产物就是子空间距离和矩阵的 QR 分解。

1. Gram-Schmidt 正交化推导

我们要寻找一组两两正交的向量组 $\beta_1, \beta_2, \beta_3$。

  • 第一步:定基准

    直接令第一个基向量为锚点:

$$ \beta_1 = \alpha_1 $$

  • 第二步:剥离 $\alpha_2$在$\beta_1$ 上的投影

$$ \beta_2 = \alpha_2 - \text{Proj}_{\beta_1}(\alpha_2) = \alpha_2 - \frac{f(\alpha_2, \beta_1)}{f(\beta_1, \beta_1)}\beta_1 $$

  • 第三步:剥离 $\alpha_3$在$\beta_1, \beta_2$ 张成平面上的投影

$$ \beta_3 = \alpha_3 - \frac{f(\alpha_3, \beta_1)}{f(\beta_1, \beta_1)}\beta_1 - \frac{f(\alpha_3, \beta_2)}{f(\beta_2, \beta_2)}\beta_2 $$

将上述公式项移项,我们能得到一个漂亮的正交分解结构

$$ \alpha_1 = \beta_1 $$

$$ \alpha_2 = \frac{f(\alpha_2, \beta_1)}{\|\beta_1\|^2}\beta_1 + \beta_2 $$

$$ \alpha_3 = \frac{f(\alpha_3, \beta_1)}{\|\beta_1\|^2}\beta_1 + \frac{f(\alpha_3, \beta_2)}{\|\beta_2\|^2}\beta_2 + \beta_3 $$

2. 升华:矩阵的 QR 分解与距离的本质

如果我们进一步对 $\beta_i$进行单位化,令$\hat{\beta}_i = \frac{\beta_i}{|\beta_i|}$,那么上式可以重写为:

$$ \begin{bmatrix} \alpha_1 & \alpha_2 & \alpha_3 \end{bmatrix} = \begin{bmatrix} \hat{\beta}_1 & \hat{\beta}_2 & \hat{\beta}_3 \end{bmatrix} \begin{bmatrix} \|\beta_1\| & \frac{f(\alpha_2, \beta_1)}{\|\beta_1\|} & \frac{f(\alpha_3, \beta_1)}{\|\beta_1\|} \\ 0 & \|\beta_2\| & \frac{f(\alpha_3, \beta_2)}{\|\beta_2\|} \\ 0 & 0 & \|\beta_3\| \end{bmatrix} $$

这就是大名鼎鼎的 QR 分解:$A_{basis} = Q R$,其中 $Q$ 为正交矩阵,$R$ 为上三角矩阵。

第二问的动机解密

要求 $\alpha_3$到子空间$\langle\alpha_1, \alpha_2\rangle$的距离,根据“垂线段最短”的原理,这个距离就是$\alpha_3$减去它在平面上的正交投影后的残差向量的长度。而由 Gram-Schmidt 的构造可知,这个残差向量恰好就是$\beta_3$!

因此:

$$ \text{Distance}(\alpha_3, \langle\alpha_1, \alpha_2\rangle) = \|\beta_3\| = \sqrt{f(\beta_3, \beta_3)} $$

在 QR 分解的矩阵 $R$ 中,对角线上的第三个元素 $|\beta_3|$恰好代表了$\alpha_i$ 到它前面所有向量张成子空间的几何距离

解法 2:代数矩阵流(合同变换与相消法)

动机:几何直观虽然优美,但计算内积和逐项投影的算力开销较大。代数上,我们知道度量矩阵的变换满足合同关系 $P^T A P = I$。如果我们能通过同时施加于行和列的对称初等变换将 $A$化为单位阵$I$,那么过渡矩阵 $P$ 就能一步到位地帮我们找出标准正交基。

1. 对称行列变换(合同对角化)

为了记录对 $A$施加的列变换(它们将构成过渡矩阵$P$),我们在 $A$的下方拼接一个单位阵$I$,组成下半部分联动矩阵。我们对 $A$进行行变换时,必须同时对$A$ 施加相同的列变换,而下方的单位阵只随列变换而动

目标是将 $A$化为单位阵$I$。输入矩阵初始状态:

$$ \begin{bmatrix} A \\ \hline I \end{bmatrix} = \left[ \begin{array}{ccc} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 3 \\ \hline 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right] $$

  • 第 1 轮消元:消去第一行/列的非对角元

    • 将第 1 行的 $-1$倍加到第 2 行,随后同步将第 1 列的$-1$ 倍加到第 2 列:

$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 1 & 3 \\ \hline 1 & -1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right] $$

  • 第 2 轮消元:消去第二行/列的非对角元

    • 将第 2 行的 $-1$倍加到第 3 行,随后同步将第 2 列的$-1$ 倍加到第 3 列:

$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 2 \\ \hline 1 & -1 & 1 \\ 0 & 1 & -1 \\ 0 & 0 & 1 \end{array} \right] $$

  • 此时上半部分已化为对角阵 $\text{diag}(1, 1, 2)$。

  • 第 3 轮:单位化对角元

    • 为了将第三行第三列的 $2$变为$1$,需要将第 3 行乘以 $1/\sqrt{2}$,并同步将第 3 列乘以 $1/\sqrt{2}$:

$$ \left[ \begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \hline 1 & -1 & 1/\sqrt{2} \\ 0 & 1 & -1/\sqrt{2} \\ 0 & 0 & 1/\sqrt{2} \end{array} \right] $$

2. 完美的代数收尾

当下半部分的联合阵演变完成时,我们直接拓印出过渡矩阵 $P$:

$$ P = \begin{bmatrix} 1 & -1 & 1/\sqrt{2} \\ 0 & 1 & -1/\sqrt{2} \\ 0 & 0 & 1/\sqrt{2} \end{bmatrix} $$

根据构造,它严丝合缝地满足:

$$ P^T A P = I $$

此时,我们直接读取 $P$ 的列向量,将新基底表出为:

$$ (\beta_1, \beta_2, \beta_3) = (\alpha_1, \alpha_2, \alpha_3) P $$

即:

$$ \beta_1 = \alpha_1 $$

$$ \beta_2 = -\alpha_1 + \alpha_2 $$

$$ \beta_3 = \frac{1}{\sqrt{2}}\alpha_1 - \frac{1}{\sqrt{2}}\alpha_2 + \frac{1}{\sqrt{2}}\alpha_3 $$

这组基两两之间的内积为 $f(\beta_i, \beta_j) = \delta_{ij}$,正是我们梦寐以求的标准正交基

最小二乘解

在工程应用中,我们常常需要求解线性方程组 $AX = \beta$。当数据的观测点数远远多于未知数个数时,矩阵 $A$往往是“瘦长”的,此时方程组通常无解(即$\beta$不在$A$的列空间$C(A)$ 内)。在数学上,我们称之为矛盾方程组。

动机:既然无法做到完美精确,如何找到一个“退而求其次”的最优近似解?

根据欧氏空间的投影几何,子空间中距离 $\beta$最近的点,唯有$\beta$在该子空间上的正交投影$\gamma$。因此,我们无法让 $AX = \beta$成立,但我们可以退而求求一个$X$,使得 $AX$恰好等于投影$\gamma$。

定理推导:

设 $\gamma$是列向量$\beta$在$A$的列空间上的正交投影,则方程组$AX = \gamma$必然有解。根据正交投影的定义,残差向量$\beta - \gamma$必须垂直于整个列空间$C(A)$:

$$ \beta - AX \perp C(A) $$

这意味着 $\beta - AX$与$A$ 的每一个列向量的内积都为 0,写成矩阵形式即:

$$ A^T (\beta - AX) = 0 $$

展开得到:

$$ A^T \beta - A^T AX = 0 \iff \mathbf{A^T AX = A^T \beta} $$

这个新方程组被称为法方程组(Normal Equations)

  • 结论:方程组 $AX = \gamma$与$A^T AX = A^T \beta$ 等解。

  • 定义:法方程组的解 $\eta$(总存在,但可能不唯一)称为原矛盾方程组 $AX = \beta$ 的最小二乘解

当 $A = [\alpha_1 \cdots \alpha_n]$列满秩(即各列向量线性无关)时,乘积矩阵$A^T A$ 满秩可逆,此时最小二乘方程拥有唯一的优美解析解:

$$ X = (A^T A)^{-1} A^T \beta $$

其中,$\mathbf{A^+ = (A^T A)^{-1} A^T}$称为$A$ 的广义逆矩阵(伪逆),为 $A$最好的左逆。此时,正交投影向量可表达为$\gamma = AX = A A^+ \beta$,而 $X = A^+ \beta$ 则是投影向量在列空间基底下的坐标

最小二乘法与回归直线

将上述高维抽象几何投射到二维平面上,便完美解释了统计学中的线性回归

1. 问题的提出与误差建模

平面上给定 $n$个实验观测点$P_i = (a_i, b_i) ; (i=1, 2, \dots, n)$,我们希望找到一条直线 $y = kx + l$,使得这些点整体上距离这条直线最近。

动机:如何定量刻画“整体最近”?

直接测量点到直线的几何距离(垂直距离)会引入复杂的根式,不利于求导优化。因此,我们选择考察点到直线的竖直距离($y$ 轴距离)的平方和

对于任意观测点 $a_i$,其模型预测值为 $k a_i + l$,实际观测值为 $b_i$,两者的竖直误差为 $|b_i - ka_i - l|$。

我们的目标是:求出最优参数 $k$和$l$,使得残差平方和 $S$ 达到最小:

$$ \min_{k, l} \sum_{i=1}^n (b_i - ka_i - l)^2 $$

2. 向量化与高维几何转换

为了使用线性代数工具,我们将这 $n$ 个代数方程打包:

记设计矩阵 $A$与观测向量$\beta$ 分别为:

$$ A = [\alpha_1 \; \alpha_2] = \begin{bmatrix} 1 & a_1 \\ 1 & a_2 \\ \vdots & \vdots \\ 1 & a_n \end{bmatrix}, \quad \beta = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix}, \quad X = \begin{bmatrix} l \\ k \end{bmatrix} $$

那么,残差平方和在 $n$ 维欧氏空间中可以等价地写为残差向量的欧氏范数(模长)的平方

$$ \sum_{i=1}^n (b_i - ka_i - l)^2 = \|\beta - k\alpha_2 - l\alpha_1\|^2 = \|\beta - AX\|^2 $$

于是,一幅宏大的高维几何图景在 $n$ 维空间中徐徐展开:

  • 向量 $\alpha_1$(全 1 向量)与 $\alpha_2$(自变量向量)在 $n$ 维空间中张成了一个二维子空间(平面)$V = \langle\alpha_1, \alpha_2\rangle$。

  • 观测数据 $\beta$是$n$ 维空间中的一个自由向量。

  • 寻找最优的 $k, l$使得$|\beta - AX|$最小,本质上就是在平面$V$上寻找一个线性组合$k\alpha_2 + l\alpha_1$,使其到 $\beta$ 的欧氏距离最短

根据垂线段最短原理,当 $k\alpha_2 + l\alpha_1$恰好取成$\beta$到子空间$V$的正交投影时,距离达到最小。由于矩阵$A$ 显然列满秩,我们直接代入前面的伪逆公式,便能一步到位求出回归直线的截距与斜率:

$$ X = \begin{bmatrix} l \\ k \end{bmatrix} = (A^T A)^{-1} A^T \beta $$

范式的泛化:非线性多项式曲线拟合

最小二乘投影算子的伟大之处在于,它绝不局限于“直线拟合”。只要未知参数之间是线性组合关系,它就能以相同的数学结构拟合任意高阶曲线。

升级动机:如果数据点呈现出明显的弯曲趋势(如抛物线),直线模型失效了怎么办?

我们可以将拟合模型升级为二次多项式曲线:

$$ y = ux^2 + vx + w $$

此时,对于同样的观测点 $P_i = (a_i, b_i)$,单个点的竖直残差绝对值为 $|b_i - u a_i^2 - v a_i - w|$。

为了让残差平方和 $\sum_{i=1}^n (b_i - u a_i^2 - v a_i - w)^2$达到最小,我们只需要重新定义设计矩阵$A$的基底。此时,我们在$n$维空间中构造三个基向量:常数项向量$\alpha_1$、一次项向量 $\alpha_2$、二次项向量 $\alpha_3$:

$$ A = [\alpha_1 \; \alpha_2 \; \alpha_3] = \begin{bmatrix} 1 & a_1 & a_1^2 \\ 1 & a_2 & a_2^2 \\ \vdots & \vdots & \vdots \\ 1 & a_n & a_n^2 \end{bmatrix}, \quad \beta = \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \end{bmatrix}, \quad X = \begin{bmatrix} w \\ v \\ u \end{bmatrix} $$

此时,问题再次转化为:在 $n$维空间中,求$\beta$在三个向量张成的三维子空间$V = \langle\alpha_1, \alpha_2, \alpha_3\rangle$ 上的正交投影。

最终的代数求解公式依然维持了它完美的永恒形式:

$$ X = \begin{bmatrix} w \\ v \\ u \end{bmatrix} = (A^T A)^{-1} A^T \beta $$

从一维信号的加权度量,到高维空间中无可辩驳的垂线段投影,最小二乘法用最精炼的法方程组 $A^T AX = A^T \beta$,在线性与非线性、代数与几何、理论与现实之间,筑起了一座精妙绝伦的桥梁。

正交变换

正交变换在几何上对应着高维空间的“保距旋转”与“镜像反射”。我们将从内积空间的算子本质出发,完整推导其谱分析性质,并解构其在代数群论中的群论结构。

一、 正交变换的代数本质与多维等价性

定义:设 $V$ 是欧氏空间,$\mathcal{A}$是$V$上的线性变换。如果$\mathcal{A}$保持任意向量的内积不变,则称$\mathcal{A}$ 为正交变换

$$ \forall \alpha, \beta \in V, \quad (\mathcal{A}\alpha, \mathcal{A}\beta) = (\alpha, \beta) $$

动机:如何将一个抽象算子的“保内积”性质,转化为计算机可直接计算的矩阵语言? 我们需要在一组标准正交基下对其进行坐标化表征。

等价性推导: 设空间 $V$中有一组标准正交基,向量$\alpha, \beta$在该基下的坐标列向量分别为$X, Y$。由于是标准正交基,其度量矩阵为单位阵 $I$,因此两向量的内积可以极其干净地写为矩阵乘法:

$$ (\alpha, \beta) = X^T I Y = X^T Y $$

设线性变换 $\mathcal{A}$在该组标准正交基下的对应矩阵为$A$。变换后新向量 $\mathcal{A}\alpha$与$\mathcal{A}\beta$的坐标分别变为$AX$和$AY$。 代入变换后的内积表达式:

$$ (\mathcal{A}\alpha, \mathcal{A}\beta) = (AX)^T (AY) = X^T A^T A Y $$

要让正交变换的定义对任意向量(即任意坐标 $X, Y$)都成立,必须满足:

$$ X^T A^T A Y = X^T Y \implies \mathbf{A^T A = I} $$

这表明,矩阵 $A$ 必须是一个正交矩阵(其逆矩阵等于其转置:$A^{-1} = A^T$)。

正交变换的四大等价刻画

在欧氏空间中,以下四个命题完全等价,它们分别从算子、几何、基底和矩阵的角度描述了同一个刚性世界:

  1. $\mathcal{A}$ 是正交变换(保持内积不变)。

  2. $\mathcal{A}$保持向量的长度不变,即$|\mathcal{A}\alpha| = |\alpha|, ; \forall \alpha \in V$(保模长/保距性)。

  3. $\mathcal{A}$ 将一组标准正交基映射为另一组标准正交基(保基性)。

  4. $\mathcal{A}$ 在任意一组标准正交基下的表示矩阵均为正交矩阵(矩阵表征)。

二、 谱分析性质:复特征值的单位圆约束

既然正交矩阵代表高维旋转或镜像,那么它的特征值(谱)必然受到强烈的几何约束。在实数域内,旋转可能没有实特征值(例如二维平面旋转 $\theta$ 角),但如果我们把视野拓宽到复数域,正交矩阵的谱结构表现出极致的对称。

推论:若 $A$是欧氏空间$V$上的正交变换对应的矩阵,则$A$的任一复特征值$\lambda$ 都满足:

$$ |\lambda| = 1 $$

也就是说,正交矩阵的复特征值全部落在复平面的单位圆周上

完整推导过程: 设 $\lambda$是实正交矩阵$A$ 的一个复特征值,$\alpha$ 是其对应的复特征向量($\alpha \neq 0$)。由于引入了复数,特征方程写为:

$$ A\alpha = \lambda \alpha $$

我们在两边同时取共轭转置(Conjugate transpose,记为 $\dagger$或$\overline{T}$)。注意到 $A$是实矩阵,故$\overline{A} = A$:

$$ \overline{\alpha}^T A^T = \overline{\lambda} \overline{\alpha}^T $$

现在,我们将上述共轭转置式与原特征方程进行内积联动(左侧乘以右侧):

$$ \left( \overline{\alpha}^T A^T \right) (A\alpha) = \left( \overline{\lambda} \overline{\alpha}^T \right) (\lambda \alpha) $$

利用矩阵乘法的结合律,将中间项合并:

$$ \overline{\alpha}^T (A^T A) \alpha = \overline{\lambda} \lambda (\overline{\alpha}^T \alpha) $$

由于 $A$是正交矩阵,满足$A^T A = I$;而在复数域中,$\overline{\lambda}\lambda = |\lambda|^2$。代入上式:

$$ \overline{\alpha}^T I \alpha = |\lambda|^2 (\overline{\alpha}^T \alpha) \implies \overline{\alpha}^T \alpha = |\lambda|^2 (\overline{\alpha}^T \alpha) $$

由于特征向量 $\alpha \neq 0$,复向量与其共轭转置的乘积 $\overline{\alpha}^T \alpha = \sum | \alpha_i |^2$必然是一个大于 0 的实数。因此,我们可以在等式两边同时约去$\overline{\alpha}^T \alpha$,干净地导出:

$$ |\lambda|^2 = 1 \implies \mathbf{|\lambda| = 1} $$

这个优美的代数推导在几何上极为直观:因为正交变换具有保模长性($|A\alpha| = |\alpha|$),而如果特征值伸缩了向量($|A\alpha| = |\lambda||\alpha|$),两相对比,伸缩因子 $|\lambda|$只能绝对等于$1$。

三、 群论视角:正交群 $O(n)$与特殊正交群$SO(n)$当我们把全体$n$ 阶正交矩阵聚集在一起,它们对矩阵乘法表现出了完美的封闭性,从而构成了近世代数中极重要的经典李群(Lie Group)。

1. 正交群(Orthogonal Group)— $O(n)$全体$n$阶正交矩阵在矩阵乘法下构成一个群,称为$n$级正交群,记为$O(n)$。

  • 动机:为什么它能成群?

    • 封闭性:若 $A, B \in O(n)$,则 $(AB)^T(AB) = B^T (A^T A) B = B^T I B = B^T B = I$,故 $AB$ 亦为正交矩阵。

    • 单位元:单位阵 $I$显然满足$I^T I = I$。

    • 逆元:若 $A \in O(n)$,由于 $A^{-1} = A^T$,则 $(A^{-1})^T(A^{-1}) = (A^T)^T A^T = A A^T = I$,逆元依然正交。

2. 特殊正交群(Special Orthogonal Group)— $SO(n)$对于任意正交矩阵$A \in O(n)$,我们在等式 $A^T A = I$ 两边取行列式:

$$ \det(A^T A) = \det(A^T)\det(A) = \det(A)^2 = \det(I) = 1 \implies \det(A) = \pm 1 $$

基于行列式的符号,正交群被完美地切分为两部分:

  • $\det(A) = 1$:代表纯旋转变换(保持空间的定向不改变)。

  • $\det(A) = -1$:代表包含镜像反射的变换(颠倒了空间的右手系与左手系)。

由所有行列式为 $1$的$n$阶正交矩阵构成的子群,称为$n$级特殊正交群,记为$SO(n)$,在物理与工程中常被称为旋转群(如描述三维空间刚体旋转的 $SO(3)$)。


几何的刚性与旋转的算子化表达

一、 二维欧氏空间 $\mathbb{R}^2$ 的正交基与刚性基底

当我们谈论欧氏空间的刚性时,最直观的语言莫过于“保内积”。无论是镜面反射还是绕原点的旋转,这些变换在本质上都维持了向量的长度与夹角。在代数框架下,这种保几何结构的算子被具象化为正交矩阵。我们习惯于直接罗列正交矩阵的性质,但若退回起点,我们会发现正交矩阵不仅是一堆行(列)向量拼成的标准正交基,它更是复数平面的高维延伸、刚性算子的矩阵化身。

在欧氏空间 $\mathbb{R}^2$中,如果选定了一组标准正交基${\alpha, \beta}$,那么任何一个由它们作为列构成的矩阵 $A = [\alpha \quad \beta]$必然满足正交矩阵的定义。几何上,这意味着$\alpha$和$\beta$ 都是单位向量且彼此正交($\alpha \perp \beta$)。

构想的动机: 如何用一个单一的连续参数去约束两个互相垂直的单位向量?最自然的代数刻画就是三角函数。因为任何单位圆上的点都可以被参数化为坐标,这使得我们可以用一个旋转角来统摄整组基的形态。

基于此,二维正交矩阵自然地分裂为两类形态:

  • 第一类(行列式为 1)

$$ A_\theta = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} $$

  • 第二类(行列式为 -1)

$$ B_\theta = \begin{bmatrix} \cos\theta & \sin\theta \\ \sin\theta & -\cos\theta \end{bmatrix} $$

1. 第一类正交矩阵 $A_\theta$ 的复本征结构与几何旋转

对于变换 $X \mapsto A_\theta X$,其几何效应显而易见:将平面上的向量绕原点逆时针旋转 $\theta$角。然而,当我们试图在实数范围内寻找它的特征值(eigenvalue)和特征向量时,除非$\theta$是$\pi$ 的整数倍,否则在实平面上根本找不到“方向保持不变”的向量。这迫使我们将视线拓宽到复数域。

为了探寻旋转变换的本征结构,我们求解特征方程 $\det(\lambda I - A_\theta) = 0$,即:

$$ (\lambda - \cos\theta)^2 + \sin^2\theta = 0 \implies \lambda = \cos\theta \pm i\sin\theta = e^{\pm i\theta} $$

将复特征值带回,我们可以对矩阵 $A_\theta$ 进行复相似对角化:

$$ \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \begin{bmatrix} 1 & 1 \\ -i & i \end{bmatrix} = \begin{bmatrix} 1 & 1 \\ -i & i \end{bmatrix} \begin{bmatrix} \cos\theta + i\sin\theta & 0 \\ 0 & \cos\theta - i\sin\theta \end{bmatrix} $$

这揭示了一个深刻的本质:二维平面的实旋转,在复空间中不过是沿着两个共轭复向量方向的纯粹拉伸。复数域在这里充当了看清几何旋转底层逻辑的瞳孔。

2. 第二类正交矩阵 $B_\theta$ 的反射本征解构

当行列式变为 $-1$时,矩阵$B_\theta$ 失去了保持空间定向(手性,chirality)的能力,退化为一种镜像反射。我们可以通过一个精妙的代数重组来洞察它的内部构造:

$$ B_\theta = \begin{bmatrix} \cos\theta & \sin\theta \\ \sin\theta & -\cos\theta \end{bmatrix} = \begin{bmatrix} \cos(\theta/2) & -\sin(\theta/2) \\ \sin(\theta/2) & \cos(\theta/2) \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & -1 \end{bmatrix} \begin{bmatrix} \cos(\theta/2) & \sin(\theta/2) \\ -\sin(\theta/2) & \cos(\theta/2) \end{bmatrix} $$

重组的几何动机: 这种三因子乘积的结构形式为 $P M P^{-1}$。其中中间的矩阵是对 $y$轴的标准镜像反射,而两侧的矩阵则代表将坐标轴旋转$\theta/2$。这说明,所谓的第二类正交变换,本质上就是关于一条与 $x$轴夹角为$\theta/2$ 的直线的镜面反射

若任取一个方向为 $\omega$的单位向量$X = \begin{bmatrix} \cos\omega \ \sin\omega \end{bmatrix}$,经 $B_\theta$ 作用后得到:

$$ AX = \begin{bmatrix} \cos\theta\cos\omega + \sin\theta\sin\omega \\ \sin\theta\cos\omega - \cos\theta\sin\omega \end{bmatrix} = \begin{bmatrix} \cos(\theta - \omega) \\ \sin(\theta - \omega) \end{bmatrix} $$

从物理几何上看,初始角为 $\omega$,变换后的角为 $\theta - \omega$。两者的算术平均值恰好是 $(\omega + \theta - \omega)/2 = \theta/2$。这就极其直观地证明了,该变换始终关于 $\theta/2$ 射线保持对称,它确实是一个标准的反射算子。

二、 二维变换的群复合与代数结构

旋转与反射算子之间的复合并不是杂乱无章的,它们构成了一个严密的代数闭环(即正交群 $O(2)$及其子群$SO(2)$)。我们拥有以下运算规则:

  1. 旋转与旋转复合:$A_\theta A_\omega = A_{\theta+\omega}$。这说明连续旋转在角度上是直接相加的,满足交换律。
  2. 反射与反射复合:$B_\theta B_\omega = A_{\theta-\omega}$。两次手性改变的反射叠加,几何上等价于一次纯粹的旋转,旋转角为两侧反射轴夹角两倍。
  3. 旋转与反射复合:$A_\theta B_\omega = B_{\theta+\omega}$以及$B_\omega A_{-\theta} = B_{\theta+\omega}$。这反映了群的不交换性,同时也表明旋转与反射相互作用后依然是反射。

三、 三维欧氏空间中的旋转与反射推演

当我们将维度提升到三维空间 $\mathbb{R}^3$ 时,刚性变换的复杂性由于多出一个维度的自由度而陡增。但借助第一性原理,我们依然可以通过低维的结论去拆解高维的内核。

1. 第一类 3 阶正交矩阵($\det(A) = 1$)—— 空间旋转的本质

【定理证明 1】 证明 $\lambda = 1$必然是$A$ 的一个特征值。

动机: 若能证明存在 $\lambda = 1$,就意味着在三维空间中必定存在一个向量在变换后保持不动,这个不动向量所指的方向就是空间旋转的旋转轴

我们需要考察特征多项式在 $\lambda = 1$时的取值,即判断矩阵$A - I$是否奇异(singular)。利用正交矩阵的性质$A^T A = I$以及$\det(A) = 1$:

$$ \det(A - I) = \det(A - A A^T) = \det(A (I - A^T)) = \det(A) \cdot \det(I - A^T) = 1 \cdot \det(I - A)^T = \det(I - A) $$

由于 $A$是 3 阶矩阵,对于任意 3 阶矩阵有$\det(I - A) = (-1)^3 \det(A - I) = -\det(A - I)$。
因此,我们得到:

$$ \det(A - I) = -\det(A - I) \implies 2\det(A - I) = 0 \implies \det(A - I) = 0 $$

由此断定,矩阵 $A - I$必然奇异,齐次线性方程组$(A - I)x = 0$ 存在非零解。即 $\lambda = 1$必为矩阵$A$ 的特征值

【标准型扩充与降维表达 2】

既然 $\lambda = 1$是特征值,我们便可取其对应的单位特征向量记为$\alpha_1$,满足 $A\alpha_1 = \alpha_1$。为了研究整个空间的动力学,我们需要构造一个协调的坐标系。根据施密特正交化或基扩张定理,可将 $\alpha_1$扩充为$\mathbb{R}^3$的一组标准正交基${\alpha_1, \alpha_2, \alpha_3}$。

证明:${\alpha_1, A\alpha_2, A\alpha_3}$ 仍为一组标准正交基,且变换具有正交子空间不变性。
因为正交变换保持内积不变,且 $A\alpha_1 = \alpha_1$,我们直接考察内积:

$$ (\alpha_1, A\alpha_2) = (A\alpha_1, A\alpha_2) = (\alpha_1, \alpha_2) = 0 $$

$$ (\alpha_1, A\alpha_3) = (A\alpha_1, A\alpha_3) = (\alpha_1, \alpha_3) = 0 $$

这说明向量 $A\alpha_2$和$A\alpha_3$依然与$\alpha_1$保持垂直。换言之,由${\alpha_2, \alpha_3}$张成的二维正交补空间在变换$A$的作用下是自身不变的(即$A\alpha_2, A\alpha_3 \in \text{span}{\alpha_2, \alpha_3}$)。此外:

$$ (A\alpha_i, A\alpha_j) = (\alpha_i, \alpha_j) = \delta_{ij} \quad (i, j = 2, 3) $$

因此,整个基底在变换后完全维持了标准正交性。

【旋转标准型的最终确立 3】

由于 $A\alpha_2$和$A\alpha_3$缩回到了${\alpha_2, \alpha_3}$的二维子空间中,并且保持了二维正交性,加之整体行列式$\det(A) = 1$,限制在这个子空间上的变换必然是一个第一类的二维旋转。因此,存在某个旋转角 $\theta$,使得:

$$ A\alpha_2 = \cos\theta \alpha_2 + \sin\theta \alpha_3 $$

$$ A\alpha_3 = -\sin\theta \alpha_2 + \cos\theta \alpha_3 $$

若我们构造正交过渡矩阵 $P = [\alpha_1 \quad \alpha_2 \quad \alpha_3]$,在这组新基下,算子 $A$ 被完美地表示为分块对角标准型:

$$ A P = P \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} \implies \mathbf{P^{-1}AP = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix}} $$

结论: 这在代数上给出了最清晰的几何定性——任何第一类 3 阶正交变换,本质上都是绕着某一个特定轴 $\alpha_1$旋转了$\theta$ 角的刚性变换

迹(Trace)的不变性推演: 由于矩阵的迹在相似变换下具有不变性,我们可以建立起矩阵的纯代数指标与空间旋转角之间的直接纽带:

$$ \text{Tr}(A) = \text{Tr}(P^{-1}AP) = 1 + \cos\theta + \cos\theta = 1 + 2\cos\theta $$

这轴心公式给出了通过任意三维旋转矩阵求解旋转角的唯一方式:$2\cos\theta = \text{Tr}(A) - 1$

2. 第二类 3 阶正交矩阵($\det(A) = -1$)—— 旋转反射的交织

当行列式为 $-1$ 时,空间结构中必定包含奇数次镜像反射。其结构推导与第一类形成了镜像对称:

【定理证明 1】 证明 $\lambda = -1$必然是$A$ 的一个特征值。

证明: 同样考察特征多项式在 $\lambda = -1$时的表现,利用$A^T A = I$且$\det(A) = -1$:

$$ \det(A + I) = \det(A + A A^T) = \det(A(I + A^T)) = \det(A) \cdot \det(I + A^T) = (-1) \cdot \det(I + A)^T = -\det(A + I) $$

因为是 3 阶矩阵,所以移项得:
$2\det(A + I) = 0 \implies \det(A + I) = 0$> 这强有力地证明了,齐次方程$(A + I)x = 0$ 存在非零解,即 $\lambda = -1$ 必为其特征值。几何上,这意味着存在一个方向,在变换后方向完全反转,它构成了镜像的法线方向。

【标准型确立 2】

取该特征值对应的单位特征向量为 $\alpha_1$,有 $A\alpha_1 = -\alpha_1$。同样将其扩充为全空间的标准正交基 ${\alpha_1, \alpha_2, \alpha_3}$。通过完全相同的正交子空间分析,其余下的二维正交补空间依然保持不变。但由于总行列式为 $-1$,而分块项贡献了一个 $-1$,导致作用于二维子空间上的截面算子行列式必须为 $(-1)/(-1) = 1$(即必须为纯旋转)。

因此,在过渡矩阵 $P = [\alpha_1 \quad \alpha_2 \quad \alpha_3]$ 建立的坐标系下,第二类正交矩阵的标准型被重组为:

$$ \mathbf{P^{-1}AP = \begin{bmatrix} -1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix}} $$

结论: 这类变换的几何图景同样清晰——它被称为旋转反射(Rotoreflection)。算子先将整个空间绕着 $\alpha_1$轴旋转$\theta$角,随后紧接着关于垂直于该轴的平面(由${\alpha_2, \alpha_3}$ 张成)进行一次镜像反射。这种复合形态构成了晶体学和高维空间对称性分析的基石。


四、 核心结论对比与批判性视阈

空间维度 变换类型 行列式 $\det(A)$ 特征值结构 代数标准型 几何本源
二维 ($\mathbb{R}^2$) 第一类 $1$ $e^{\pm i\theta}$ $\begin{bmatrix} \cos\theta & -\sin\theta \ \sin\theta & \cos\theta \end{bmatrix}$ 绕原点纯粹旋转$\theta$
二维 ($\mathbb{R}^2$) 第二类 $-1$ $1, -1$ $\begin{bmatrix} \cos\theta & \sin\theta \ \sin\theta & -\cos\theta \end{bmatrix}$ 关于$\theta/2$ 射线的镜面反射
三维 ($\mathbb{R}^3$) 第一类 $1$ $1, e^{\pm i\theta}$ $\text{diag}(1, A_\theta)$ 以$\alpha_1$ 为轴的空间旋转
三维 ($\mathbb{R}^3$) 第二类 $-1$ $-1, e^{\pm i\theta}$ $\text{diag}(-1, A_\theta)$ 绕轴旋转后关于正交面反射

五、旋转算子的空间共轭引理:基底变换的代数视角

在研究三维刚体旋转时,我们经常遇到这样的问题:如果已知一个旋转是绕某个标准轴(如 $z$ 轴)进行的,那么当旋转轴被变换到另一个任意方向时,算子的矩阵形式会发生什么变化?

设 $A, B \in SO(3)$,其中 $A$对应的变换是绕单位向量$\alpha$依右手方向旋转$\theta$角(记为$\rho(\alpha, \theta)$)。则 $BAB^T$对应的变换是绕单位向量$B\alpha$右手旋转$\theta$ 角,即:

$$ \rho(B\alpha, \theta) = B \rho(\alpha, \theta) B^T \quad \iff \quad B \rho(\alpha, \theta) = \rho(B\alpha, \theta) B $$

   α ───────── 绕 α 旋转 θ (算子 A) ─────────► Aα
   │                                           ▲
   │                                           │
施加空间变换 B                               施加空间变换 B
   │                                           │
   ▼                                           │
  Bα ──── 绕 Bα 旋转 θ (算子 B A Bᵀ) ──────────┘

动机与第一性原理破译: > 矩阵的共轭复合形式 $B A B^T$(由于 $B$是正交矩阵,即$B A B^{-1}$)在几何上代表**“坐标系的搬移”**。

它的物理执行步骤是从右往左读的:

  1. $B^T$(即 $B^{-1}$):将当前处于新空间(变换后)的向量逆向拉回到初始参考系;

  2. $\rho(\alpha, \theta)$:在初始参考系中,绕原旋转轴 $\alpha$舒舒服服地旋转$\theta$ 角;

  3. $B$:将旋转后的向量整个顺向搬移回新空间。

这一连串动作的净效应,在宏观上完美等价于“在新空间中直接绕新轴 $B\alpha$旋转$\theta$ 角”。这是近代物理与计算机图形学中“主动变换”与“被动变换”相互转换的底层逻辑。

二、 $SO(3)$ 的参数化:欧拉角(Euler Angles)的代数复合机制

描述一个刚体(如飞机、航天器)在三维空间中的任意姿态,通常需要 3 个自由度。欧拉角的本质就是将一个复杂的单次空间旋转,拆解为三个绕着特定轴的经典二维旋转的复合。

在航空工程中,最直观的姿态描述是 偏航角(Yaw, $\psi$)俯仰角(Pitch, $\theta$)滚转角(Roll, $\phi$)。然而在代数推演中,晶体学和分析力学更青睐于 $z\text{-}x\text{-}z$欧拉角:即任何第一类正交变换都可以分解为绕$z$轴旋转、绕新$x$轴旋转、再绕最新$z$ 轴旋转。

为了定量计算,我们先写出绕基础轴旋转的二维分块算子:

$$ A_\theta = \begin{bmatrix} \cos\theta & -\sin\theta & 0 \\ \sin\theta & \cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix} \quad (\text{绕 } z \text{ 轴}), \qquad B_\omega = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\omega & -\sin\omega \\ 0 & \sin\omega & \cos\omega \end{bmatrix} \quad (\text{绕 } x \text{ 轴}) $$

然而,连续旋转由于“每一次旋转都会把下一次要用的旋转轴一起带走”,导致复合矩阵的乘法顺序变得极其微妙。这里分裂出了两种完全对立却在数学上等价的表述方式:

1. 随动坐标系(Intrinsic / Body-fixed)表示法

若每一次旋转都是绕着刚体自身当前附着的、运动着的坐标轴进行(即随动轴):

  • 第一次:绕刚体自身的 $z$轴旋转$\psi$角,此时刚体的$x$轴被带到了新位置$x’$;

  • 第二次:绕刚体当前新位置的 $x’$轴旋转$\theta$角,此时刚体的$z$轴被带到了最新位置$z’’$;

  • 第三次:绕刚体最新位置的 $z’’$轴旋转$\phi$ 角。

随动乘法规则: 这种直观的随动变换,其代数复合矩阵的乘法顺序竟然与直观执行顺序完全一致(从左到右)

$$ M_{\text{intrinsic}} = A_\psi B_\theta A_\phi $$

2. 静止坐标系(Extrinsic / Space-fixed)表示法

如果我们在整个过程中双眼紧盯着绝对静止的空间参考参考系,要求每一次旋转轴都必须是空间中死死不动的绝对坐标轴:

静止乘法规则: 若针对静止坐标轴进行复合,其乘法顺序必须完全颠倒(从右到左)

$$ M_{\text{extrinsic}} = A_\phi B_\theta A_\psi $$

3. 核心定理:随动与静止表示法的等价性推导

用静止坐标系表示随动旋转时,形式会发生反转。我们从第一性原理和前面的“共轭引理”出发,给出其完整的动力学证明

证明:

刚体最初的旋转是绕着初始静止系统的 $z$轴旋转$\psi$,算子为 $A_\psi$。

第二步,我们需要绕随动轴 $x’$旋转$\theta$。这个随动轴 $x’$是怎么来的?它是原本静止的$x$轴被第一步的$A_\psi$作用后的结果,即$x’ = A_\psi(x)$。

根据我们的共轭变换引理 $\rho(B\alpha, \theta) = B\rho(\alpha, \theta)B^T$,这里搬移坐标系的矩阵就是 $A_\psi$,原本绕静止轴的旋转是 $B_\theta$。因此,绕随动轴 $x’$旋转$\theta$ 的实际算子被转化为:

$$ R_2 = A_\psi B_\theta A_\psi^T $$

此时,前两步的累计总旋转算子为:

$$ R_{\text{total, 2}} = R_2 \cdot A_\psi = (A_\psi B_\theta A_\psi^T) A_\psi = A_\psi B_\theta $$

第三步,我们需要绕最新的随动轴 $z’’$旋转$\phi$。这个 $z’’$轴是原本静止的$z$轴经历了前两步累计变换$R_{\text{total, 2}}$后的产物,即$z’’ = (A_\psi B_\theta)(z)$。

再次套用共轭变换引理,绕随动轴 $z’’$旋转$\phi$ 的实际算子为:

$$ R_3 = (A_\psi B_\theta) A_\phi (A_\psi B_\theta)^T = A_\psi B_\theta A_\phi B_\theta^T A_\psi^T $$

最终,将第三步算子左乘到前两步的总结果上,得到完整的随动复合算子:

$$ M = R_3 \cdot R_{\text{total, 2}} = (A_\psi B_\theta A_\phi B_\theta^T A_\psi^T) \cdot (A_\psi B_\theta) $$

利用正交矩阵的消去律($A_\psi^T A_\psi = I$且$B_\theta^T B_\theta = I$),我们看到中间的项像多米诺骨牌一样纷纷消去:

$$ M = A_\psi B_\theta A_\phi \underbrace{B_\theta^T A_\psi^T A_\psi B_\theta}_{I} = A_\psi B_\theta A_\phi $$

恒等式展开:

我们可以反向把这个结果拆开,从而彻底看清它与静止轴的转换关系:

$$ A_\psi B_\theta A_\phi = (A_\psi B_\theta A_\phi B_\theta^{-1} A_\psi^{-1}) \cdot (A_\psi B_\theta A_\psi^{-1}) \cdot A_\psi $$

结论: 每次做随动坐标的旋转,其代数本质都是“首先将坐标轴变回最初的静止状态,作静止坐标的旋转,再原路返回”。这在代数上天衣无缝地解释了为什么随动表示法的矩阵是从左向右乘,而静止表示法是从右向左乘。

对称变换

对称变换(Symmetric Transformations)与谱结构

从正交变换(保手性、保长度的刚性运动)中抽离出来,线性空间中另一类极为尊贵的算子是对称变换。它们不负责“旋转”空间,而是负责沿着某些特定的交错方向进行纯粹的拉伸分形

1. 严格定义

若线性变换 $A$ 满足以下内积对称性:

$$ (A\alpha, \beta) = (\alpha, A\beta), \quad \forall \alpha, \beta \in V $$

则称 $A$ 为对称变换

2. 坐标化证明

定理:$A$是对称变换$\iff A$ 在标准正交基下的矩阵是实对称矩阵($A^T = A$)。

证明:

选定一组标准正交基 ${\alpha_1, \dots, \alpha_n}$。根据定义,变换算子在这组基下的矩阵元素 $a_{ij}$ 满足:

$$ A\alpha_j = a_{1j}\alpha_1 + \dots + a_{nj}\alpha_n = \sum_{k=1}^n a_{kj}\alpha_k $$

由于基底是标准正交的($(\alpha_i, \alpha_k) = \delta_{ik}$),利用内积取出系数:

$$ (\alpha_i, A\alpha_j) = \Big(\alpha_i, \sum_{k=1}^n a_{kj}\alpha_k\Big) = a_{ij} $$

同理,将 $A$ 作用在左边:

$$ (A\alpha_i, \alpha_j) = (\alpha_j, A\alpha_i) = a_{ji} $$

若 $A$是对称变换,根据定义必有$(\alpha_i, A\alpha_j) = (A\alpha_i, \alpha_j)$,代入上式立刻得到:

$$ a_{ij} = a_{ji} $$

即矩阵的第 $i$行$j$列元素等于第$j$行$i$列元素,矩阵$A$ 必为实对称矩阵。证毕。

3. 谱定理(Spectral Theorem)的终极本征解构

线性代数中最核心的定理之一:

$$ \text{对称变换 } A \iff \text{在任意一组标准正交基下的矩阵为实对称矩阵} \iff \exists \text{ 标准正交基 } \{\beta_1, \dots, \beta_n\} \text{ 使得算子完全对角化} $$

即存在一组完美的空间基底,使得:

$$ A\beta_1 = \lambda_1 \beta_1, \quad A\beta_2 = \lambda_2 \beta_2, \quad \dots, \quad A\beta_n = \lambda_n \beta_n $$

批判性视阈与几何总结:

我们现在可以将正交变换对称变换放在统一的宏观视角下进行对比批判:

  • 正交变换($\det(A)=1$):在实数域内顽固地拒绝提供充足的实特征向量,它倾向于把全空间解耦为一个个二维的旋转平面(复特征值 $e^{\pm i\theta}$),强迫空间发生刚性旋转。

  • 对称变换($A^T=A$):极度顺从地在全空间中提供了一整组由彼此垂直的实特征向量 ${\beta_1, \dots, \beta_n}$构成的骨架。在它治下的空间没有旋转、没有手性的改变,只有沿着这$n$个正交主轴方向上纯粹的、干净的线性拉伸$\lambda_i$。这也是二次型标准化、图像处理中主成分分析(PCA)以及多元统计物理的数理本源。

矩阵指数映射、反对称算子的李代数内核与高维正交矩阵分解

一、 从无穷小旋转到刚性旋转:矩阵指数映射的动机

在经典微积分中,常数 $a$ 的指数函数可以展开为泰勒级数:$e^a = 1 + a + \frac{1}{2!}a^2 + \frac{1}{3!}a^3 + \dots$。如果我们把自变量从“数”提升为“算子(矩阵)”,这种代数形式依然具有极强的空间拓扑威力。

构想的动机与第一性原理:

想象你在空间中做极微小的动力学旋转。在无穷小时刻,向量 $X$的变化率(速度)与自身垂直,这可以用一个反对称矩阵$C$(即 $C^T = -C$)来刻画:$\frac{dX}{dt} = CX$。

这是一个经典的线性微分方程组,其形式解正是 $X(t) = e^{Ct}X(0)$。因为物体的运动是刚性的,不改变向量长度,这意味着随着时间流动,算子 $e^C$ 必须能够完美保持内积,即它必须演化为一个正交矩阵。矩阵指数映射就是连接“无穷小旋转速度(李代数)”与“宏观旋转状态(李群)”的天然桥梁。

1. 严格代数性质证明

【引理证明】若 $C$ 是实反对称矩阵($C^T = -C$),证明 $e^C$ 必为第一类正交矩阵($\det(e^C) = 1$)。

  • 正交性证明

    首先利用级数展开考察 $e^C$ 的转置:

$$ \left(e^C\right)^T = \left(I + C + \frac{1}{2!}C^2 + \frac{1}{3!}C^3 + \dots\right)^T = I + C^T + \frac{1}{2!}(C^T)^2 + \frac{1}{3!}(C^T)^3 + \dots $$

代入反对称条件 $C^T = -C$:

$$ \left(e^C\right)^T = I + (-C) + \frac{1}{2!}(-C)^2 + \frac{1}{3!}(-C)^3 + \dots = I - C + \frac{1}{2!}C^2 - \frac{1}{3!}C^3 + \dots = e^{-C} $$

由于 $C$与$-C$ 显然满足乘法交换律($C(-C) = (-C)C$),根据指数矩阵性质:

$$ \left(e^C\right)^T \cdot e^C = e^{-C} \cdot e^C = e^{-C + C} = e^0 = I $$

由此断定,$e^C$ 必然是一个正交矩阵

  • 行列式为 1 的证明

    利用重要的矩阵迹与行列式恒等式 $\det(e^A) = e^{\text{Tr}(A)}$:

    对于反对称矩阵 $C$,其主对角线元素必然全为 $0$(因为 $c_{ii} = -c_{ii} \implies c_{ii} = 0$),所以其迹(Trace)为 $0$:

$$ \text{Tr}(C) = 0 \implies \det(e^C) = e^{\text{Tr}(C)} = e^0 = 1 $$

这就证明了 $e^C$不仅正交,而且保手性,它必然属于第一类正交矩阵$SO(n)$

二、 二维微元旋转的代数重组

为了看清指数映射的运作细节,我们先在二维平面 $\mathbb{R}^2$ 上进行基准计算。定义最基本的二维反对称矩阵:

$$ C = \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} $$

为了求 $e^C$,我们需要计算 $C$ 的高阶幂次。通过简单的矩阵乘法,我们发现其幂次呈现出优美的周期性:

$$ C^2 = \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} = \begin{bmatrix} -\theta^2 & 0 \\ 0 & -\theta^2 \end{bmatrix} = -\theta^2 I $$

$$ C^3 = C^2 \cdot C = -\theta^2 C, \qquad C^4 = (C^2)^2 = \theta^4 I, \qquad C^5 = \theta^4 C \dots $$

将这个周期规律带入指数泰勒级数展开式,并按照 $I$和$C$ 进行分块归类重组:

$$ e^C = I + C + \frac{1}{2!}C^2 + \frac{1}{3!}C^3 + \frac{1}{4!}C^4 + \frac{1}{5!}C^5 + \dots $$

$$ e^C = I + C + \frac{1}{2!}(-\theta^2 I) + \frac{1}{3!}(-\theta^2 C) + \frac{1}{4!}(\theta^4 I) + \frac{1}{5!}(\theta^4 C) + \dots $$

$$ e^C = \left(1 - \frac{\theta^2}{2!} + \frac{\theta^4}{4!} - \dots\right)I + \left(1 - \frac{\theta^2}{3!} + \frac{\theta^4}{5!} - \dots\right)\frac{1}{\theta}C $$

动机的汇聚:

观察上面这两组括弧内的无穷级数,它们恰好就是正弦和余弦函数的麦克劳林展开式!

$$ \left(1 - \frac{\theta^2}{2!} + \frac{\theta^4}{4!} - \dots\right) = \cos\theta $$

$$ \left(\theta - \frac{\theta^3}{3!} + \frac{\theta^5}{5!} - \dots\right) = \sin\theta $$

因此,代入回矩阵形式:

$$ e^C = \cos\theta \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} + \frac{\sin\theta}{\theta} \begin{bmatrix} 0 & -\theta \\ \theta & 0 \end{bmatrix} = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} $$

结论: 纯代数展开的最终重组结果,与我们前面由几何推导出的平面纯旋转矩阵 完全一致。这表明,反对称矩阵中的参数 $\theta$ 经由指数映射后,完美转化为宏观空间中的旋转角度。

三、 三维罗德里格斯公式的代数本源解构

一个更具工程和物理意义的范例:

设 3 阶反对称矩阵 $C = \begin{bmatrix} 0 & a & b \ -a & 0 & c \ -b & -c & 0 \end{bmatrix}$,证明 $e^C$给出的是绕向量$\mathbf{n} = [c \quad -b \quad a]^T$方向的右手系空间旋转,且旋转角度为$\theta = \sqrt{a^2+b^2+c^2}$。

1. 寻找旋转不动的骨架(本征结构分析)

根据前面的定理,三维纯旋转必定有一个旋转轴(特征值为 1 对应的特征向量)。我们直接验证向量 $\beta_1 = \begin{bmatrix} c \ -b \ a \end{bmatrix}$在反对称算子$C$ 下的表现:

$$ C \beta_1 = \begin{bmatrix} 0 & a & b \\ -a & 0 & c \\ -b & -c & 0 \end{bmatrix} \begin{bmatrix} c \\ -b \\ a \end{bmatrix} = \begin{bmatrix} 0 - ab + ab \\ -ac + 0 + ac \\ -bc + bc + 0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix} = 0 \cdot \beta_1 $$

步骤的几何动机:

算子 $C$作用在$\beta_1$上结果为$0$(即 $\beta_1$属于内核$\ker(C)$)。这绝非巧合!

当我们将 $C$ 作用到矩阵指数映射时:

$$ e^C \beta_1 = \left(I + C + \frac{1}{2!}C^2 + \dots\right)\beta_1 = I\beta_1 + 0 + 0 + \dots = \beta_1 $$

这强有力地证明了,向量 $\beta_1$在经历了宏观变换$e^C$ 后依然死死保持不动。这直接宣告了:$\beta_1 = [c \quad -b \quad a]^T$ 就是该空间旋转的绝对旋转轴

2. 空间降维解耦与投影重组

为了求出其余两个正交截面的旋转响应,我们将 $\beta_1$标准化为单位向量,并利用施密特正交化将其扩充为全空间的右手标准正交基${\beta_1, \beta_2, \beta_3}$。构造过渡矩阵 $P = [\beta_1 \quad \beta_2 \quad \beta_3]$。

在这组相互垂直的骨架下,算子 $C$ 满足:

$$ P^T C P = \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & -\theta \\ 0 & \theta & 0 \end{bmatrix} \quad (\text{其中 } \theta = \sqrt{a^2+b^2+c^2}) $$

这是因为在三维欧氏空间中,由于 $C$ 的反对称性与内积保持,除去零特征值方向,其余二维补空间上必定表现为一个纯粹的微元旋转。此时对其进行高阶幂次运算,由于分块对角线的独立性,平方后项变为:

$$ (P^T C P)^2 = \begin{bmatrix} 0 & 0 & 0 \\ 0 & -\theta^2 & 0 \\ 0 & 0 & -\theta^2 \end{bmatrix} $$

由此可以得到三维特征多项式的零化消去律:$C^3 = -\theta^2 C$(这就是大名鼎鼎的罗德里格斯算子化简核心)。

最终,利用相似矩阵的指数性质 $e^C = e^{P (P^T C P) P^T} = P e^{P^T C P} P^T$,我们可以把在 $\beta_1$ 基底下的对角化分块完美写出:

$$ e^{P^T C P} = \begin{bmatrix} e^0 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & \cos\theta & -\sin\theta \\ 0 & \sin\theta & \cos\theta \end{bmatrix} $$

最终定性: 任何 3 阶实反对称矩阵的指数,在空间拓扑上都天然对应一个绕着特定轴(由非零元素交叉决定的法线)旋转了模长 $\sqrt{a^2+b^2+c^2}$ 角度的刚性旋转。

四、 高维正交变换的“准对角化”谱系全景

当我们站在宏观的最高处,跨越二维和三维的限制,看向任意有限维欧氏空间 $\mathbb{R}^n$ 中的正交变换时,最后一个定理为我们展现了一幅极其震撼的空间结构画卷:

【正交变换谱定理】

若 线性变换 $A$是一个广义正交变换(在任意标准正交基下满足$A^T A = I$),则必然存在全空间的一组标准正交基,使得算子 $A$ 在该基底下的矩阵可以被完美地拆解为以下互不干扰的准对角分块形态

$$ \mathbf{M_{\text{standard}} = \begin{bmatrix}

\pm 1 & & & & & \

& \pm 1 & & & & \

& & \ddots & & & \

& & & \begin{matrix} \cos\theta_1 & -\sin\theta_1 \ \sin\theta_1 & \cos\theta_1 \end{matrix} & & \

& & & & \ddots & \

& & & & & \begin{matrix} \cos\theta_m & -\sin\theta_m \ \sin\theta_m & \cos\theta_m \end{matrix}

\end{bmatrix}}
$$

批判性视阈与总结

这个定理是线性代数刚性几何理论的终极交响乐。它为我们揭示了高维刚性运动极为简洁的底层本质:

  1. 一维不变子空间的退化:矩阵最左上角的一排 $\pm 1$,代表空间中存在若干个一维的直线。如果是 $+1$,代表该直线上的向量在变换后定格不动(如同三维旋转的轴);如果是 $-1$,代表这条线上的向量在变换后原路镜面反转

  2. 二维独立旋转面的解耦:矩阵右下角那一个个互不相交的 $2 \times 2$三角矩阵块,代表高维空间可以被完美切削为一个个彼此正交的二维平面。在每一个独立的平面内部,空间都在各自悄悄地绕着原点旋转着不同的角度$\theta_j$。

  3. 无耦合的几何图景:这意味着,无论多高维度的刚性物体的复杂运动(比如高维超球体的翻转),在数学本质上,都可以被解耦为一堆彼此垂直的轴向拉伸反转,与一堆彼此垂直的二维平面旋转的独立叠加。高维空间的运动在这一刻失去了杂乱,只剩下代数分块的极致对称与宁静。

正交变换全景、极值估计、PCA 几何最优化与奇异值分解(SVD)

一、 刚性算子的终极拼图:Cartan-Dieudonné 定理

在前面,我们探讨了二维和三维空间的正交变换,并发现它们可以被完美解耦为“纯旋转”和“镜面反射”的组合。那么在一般的 $n$ 维欧氏空间中,刚性变换的几何边界究竟在哪里?

Cartan-Dieudonné 定理(卡当-迪厄多内定理)**:

定理内容:$n$维欧氏空间中的任何正交变换,在几何上都可以表示为不超过$n$ 个镜面反射变换的乘积(复合)

构想的动机与第一性原理

镜面反射是改变空间定向(手性)的最基本刚性动作。该定理表明,镜面反射是构成一切高维刚性运动的“几何原子”。一个由连续运动产生的纯旋转(行列式为 1),在代数本质上不过是偶数个反射原子的多米诺骨牌式叠加。这不仅简化了高维正交群 $O(n)$ 的生成元结构,也为计算机图形学利用反射算子(如 Householder 变换)去逼近任意旋转矩阵提供了终极的理论合法性。

二、 算子的能量界限:瑞利商与二次型的取值估计

当我们从保持长度不变的“正交算子”,转向负责拉伸空间的“实对称算子(实对称矩阵 $A$)”时,一个最核心的问题是:一个向量 $X$在该算子作用下的“能量变动幅度”(即 quadratic form 二次型$X^T AX$)最大能有多大?最小能有多小?

实对称矩阵二次型极值定理

对任意非零列向量 $X \in \mathbb{R}^n$,其二次型受到算子极大与极小特征值的绝对控制:

$$ \lambda_n \|X\|^2 \le X^T AX \le \lambda_1 \|X\|^2 \quad \left( \iff \lambda_n \le \frac{X^T AX}{X^T X} \le \lambda_1 \right) $$

其中 $\lambda_1, \lambda_n$分别是实对称矩阵$A$的最大与最小特征值。等号成立当且仅当$X$ 落在相应的特征子空间内。

步骤与推导的几何动机

为什么它的最值恰好是特征值?因为根据谱定理,实对称矩阵 $A$拥有$n$个彼此垂直的单位特征向量骨架$P = [\beta_1, \dots, \beta_n]$,满足 $P^T AP = \text{diag}(\lambda_1, \dots, \lambda_n)$。

若我们在这一套由特征向量构成的“主轴坐标系”下观察向量 $X$(记新坐标为 $Y = P^T X$,且 $|Y|^2 = |X|^2$),二次型被瞬间剥离了交叉项,化为纯粹的平方和:

$$ X^T AX = Y^T (P^T AP) Y = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \dots + \lambda_n y_n^2 $$

动机显化:我们要让这个和在总长度 $\sum y_i^2 = |X|^2$固定的情况下最大化。最贪心的策略显然是将所有分量(能量)全部集中在最大系数$\lambda_1$对应的坐标轴上(即令$y_1 = |X|, y_{2 \dots n} = 0$);同理,最保守的策略是全部推给 $\lambda_n$。这就极其直观地证明了二次型极值的边界,并在几何上宣告了:实对称算子对空间造成的能量拉伸,其最极端、最敏锐的方向正是特征向量的方向

三、 主成分分析(PCA):几何降维的最佳子空间寻找

在数据科学和高维统计物理中,我们经常面对大量带有噪声的高维样本点 $A = [\alpha_1 \quad \alpha_2 \quad \dots \quad \alpha_n]$。我们希望能找到一个低维(例如 $k$维)的子空间$V_k = \langle \beta_1, \dots, \beta_k \rangle$,将所有样本点投影到这个子空间上,以达到“既压缩了维度,又尽可能不丢失原始信息”的目的。

1. 投影平方和最大化 vs 垂直距离平方和最小化

设 $\beta_1, \dots, \beta_k$ 是我们希望寻找的子空间的一组标准正交基。

  • 一个样本点 $\alpha$ 在该子空间上的投影向量可以表示为:$B_k B_k^T \alpha = \sum_{i=1}^k (\beta_i^T \alpha)\beta_i$。

  • 样本点到该子空间的垂直距离向量(即丢失的信息)则为:$(I - B_k B_k^T)\alpha$。

根据勾股定理,对任何样本点有:

$$ \|\text{原始向量 } \alpha\|^2 = \|\text{投影向量 } B_k B_k^T \alpha\|^2 + \|\text{垂直距离 } (I - B_k B_k^T)\alpha\|^2 $$

由于全体样本点的总能量 $\sum |\alpha_i|^2 = \text{tr}(A A^T)$ 是一个一成不变的常数,要想让丢失的信息(垂直距离平方和)最小,代数上完美等价于让留存的信息(投影平方和)最大化

2. 谱定理的终极介入

当我们将所有样本点的投影平方和写成矩阵形式时,它变成了解析式:$\sum_{j=1}^k \beta_j^T (AA^T) \beta_j$。

注意!这里的 $AA^T$ 天然是一个实对称矩阵(散布矩阵/协方差矩阵),它正蓄势待发地等待谱定理的解构。

为了最大化这个表达式,根据瑞利商极值估计,我们应该贪心地依次选取 $AA^T$的前$k$个最大的特征值$\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_k$ 对应的单位特征向量作为基底。

此时,留下的最大投影能量为 $\sum_{i=1}^k \lambda_i$。对应的最小垂直距离平方和(误差)自然就是剩下的废弃能量:

$$ \text{Min Error} = \text{tr}(AA^T) - \sum_{i=1}^k \lambda_i = \lambda_{k+1} + \dots + \lambda_m $$

这在第一性原理上完美推导出了 PCA 的数学本源:所谓主成分,在几何上就是协方差矩阵 $AA^T$ 的特征向量;而那些被丢弃的微小特征值之和,恰好就是降维后无法挽回的几何投影损失。

四、 奇异值分解(SVD):线性映射的空间拉伸全景图

实对称矩阵相似对角化的谱定理固然完美,但它要求矩阵必须是“方阵”,且必须满足对称性。如果面对一个普通的 $m \times n$实矩阵$A$(例如将 $n$维输入空间映射到$m$ 维输出空间的广义线性变换),我们还能找到类似的宁静几何图景吗?

最终给出全线性代数最通用的本征重组——奇异值分解(SVD)

定理内容:每个 $m \times n$的实矩阵$A$ 都可以被完美写成分块复合形态:

$$ A = P S Q^T $$

其中 $P$是$m$阶正交矩阵,$Q$是$n$阶正交矩阵。$S$是$m \times n$形状的广义对角矩阵,其对角线元素$\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0$称为 奇异值(Singular Values),它们是$A A^T$(或 $A^T A$)正特征值的算术平方根。

1. SVD 的三阶段几何动力学破译

从右往左阅读算子复合 $A X = P (S (Q^T X))$,任何一个一般线性映射都可以被优雅地肢解为三个物理行为:

  1. $Q^T$(旋转/反射):在输入空间 $\mathbb{R}^n$中做一次刚性坐标转换。这组新基底${ \gamma_1, \gamma_2 }$是$A^T A$ 的特征向量(定义域的标准正交骨架)。

  2. $S$(独立沿轴拉伸):在变换的中间阶段,不发生任何倾斜和旋转,仅仅将向量的分量沿着对应的标准轴方向进行单纯的、暴力的线性拉伸,拉伸倍数即为奇异值 $\sigma_i$。

  3. $P$(旋转/反射):最后,将拉伸后的结果在输出空间 $\mathbb{R}^m$中再次做一次刚性转换,落脚到最终的标准正交基底${ \beta_1, \beta_2 }$上(这组基底是$A A^T$ 的特征向量)。

2. 终极几何图景:超球体向超椭球体的蜕变

SVD 的物理本质:

线性映射 $X \mapsto AX$ 究竟对世界做了什么?

它将输入空间 $\mathbb{R}^n$ 中的一个无定向的单位超球体($|X| \le 1$),在经历空间映射后,拉伸并重组为了输出空间 $\mathbb{R}^m$ 中的一个超椭球体

  • 该超椭球体长短不一的各个半轴的几何长度,恰好就是这组非零奇异值 $\sigma_i$

  • 该超椭球体各个主轴的空间物理走向,恰好由输出空间的正交基底向量 $\beta_i = \frac{1}{\sigma_i}A\gamma_i$ 唯一决定。

共轭变换与正规矩阵

在欧氏空间中,将几何或代数操作抽象为线性变换后,我们常常需要寻找某种“镜像”或“平衡”的操作。这种在内积结构下与原变换达成对称平衡的映射,便是共轭变换。

一、 共轭变换的定义与内积平衡

动机

在线性代数中,内积 $\langle \alpha, \beta \rangle$赋予了空间度量结构。若有一个线性变换$\mathcal{A}$ 作用于其中一个向量上,我们自然会问:能否将这个变换“转移”到另一个向量上,而保持内积的结果不变?

由于图片中使用的内积符号为 $(\alpha, \beta)$,我们在本篇笔记中沿用此符号。

为了实现这种变换的转移,我们需要引入一个新变换 $\mathcal{A}^*$。

定义

设 $\mathcal{A}$是欧氏空间$V$上的线性变换。若存在另一个线性变换$\mathcal{A}^*$满足:

$$ (\mathcal{A}\alpha, \beta) = (\alpha, \mathcal{A}^*\beta), \quad \forall \alpha, \beta \in V $$

则称 $\mathcal{A}^*$是$\mathcal{A}$ 的共轭变换(adjoint operator)

典型示例

  • 正交变换 $U$:保持内积不变,即 $(U\alpha, U\beta) = (\alpha, \beta)$。若移项对照定义,其共轭变换为逆变换:$U^* = U^{-1}$。

  • 对称变换 $A$:其自身在内积中就是对称的,因此其共轭变换为本身:$A^* = A$。

二、 有限维欧氏空间下共轭变换的矩阵表达与唯一性证明

动机

在抽象空间中,满足内积等式的变换 $\mathcal{A}^*$ 是否一定存在?如果存在,它是否唯一?在有限维空间中,线性变换可以通过矩阵完全刻画。因此,通过引入一组标准正交基,我们可以将抽象的变换转移到具体的矩阵运算上。在矩阵的乘法中,转置操作恰好扮演了“将左侧矩阵的作用转移到右侧”的角色。

1. 坐标与内积的矩阵化准备

设 $\beta_1, \dots, \beta_n$是有限维欧氏空间$V$的一组标准正交基。线性变换$\mathcal{A}$和其候选共轭变换$\mathcal{A}^*$在该基下的矩阵分别记为$\mathbf{A}$和$\mathbf{B}$,即:

$$ \mathcal{A}(\beta_1 \dots \beta_n) = (\beta_1 \dots \beta_n)\mathbf{A} $$

$$ \mathcal{A}^*(\beta_1 \dots \beta_n) = (\beta_1 \dots \beta_n)\mathbf{B} $$

任意向量 $\alpha, \beta$在该基下的坐标列向量分别为$\mathbf{X}, \mathbf{Y}$。由于是在标准正交基下,空间的内积可以直接转化为坐标的向量内积(即标准内积):

$$ (\alpha, \beta) = \mathbf{X}^T \mathbf{I} \mathbf{Y} = \mathbf{X}^T \mathbf{Y} $$

此时,将线性变换 $\mathcal{A}$作用于$\alpha$,其对应的坐标变为 $\mathbf{A}\mathbf{X}$。我们分别写出等式两端的矩阵形式:

  • 左端项:$(\mathcal{A}\alpha, \beta) = (\mathbf{A}\mathbf{X})^T \mathbf{I} \mathbf{Y} = \mathbf{X}^T \mathbf{A}^T \mathbf{Y}$

  • 右端项:$(\alpha, \mathcal{A}^*\beta) = \mathbf{X}^T \mathbf{I} (\mathbf{B}\mathbf{Y}) = \mathbf{X}^T \mathbf{B} \mathbf{Y}$

2. 严密的双向推导

有了上述矩阵化的准备,共轭变换的存在性、唯一性与矩阵表达可以一气呵成地推导出来:

$$ \mathcal{A}^* \text{ 是 } \mathcal{A} \text{ 的共轭变换} $$

$$ \iff (\mathcal{A}\alpha, \beta) = (\alpha, \mathcal{A}^*\beta), \quad \forall \alpha, \beta \in V $$

$$ \iff \mathbf{X}^T \mathbf{A}^T \mathbf{Y} = \mathbf{X}^T \mathbf{B} \mathbf{Y}, \quad \forall \mathbf{X}, \mathbf{Y} \in \mathbb{R}^n $$

$$ \iff \mathbf{B} = \mathbf{A}^T $$

结论

由于在一组确定的基底下,线性变换与它对应的矩阵是一一对应的。而对于任意矩阵 $\mathbf{A}$,其转置矩阵 $\mathbf{A}^T$存在且唯一,由此可直接推出:在有限维欧氏空间上,任何线性变换$\mathcal{A}$的共轭变换$\mathcal{A}^*$都存在且唯一。在同一标准正交基下,若$\mathcal{A}$的矩阵为$\mathbf{A}$,则 $\mathcal{A}^*$的矩阵就是$\mathbf{A}^T$。

三、 实正规变换与正规矩阵

动机

既然每个线性变换 $\mathcal{A}$都伴随着一个共轭变换$\mathcal{A}^*$,那么这两者在复合运算时是否满足交换律?我们知道矩阵乘法一般是不满足交换律的($\mathbf{A}\mathbf{A}^T \neq \mathbf{A}^T\mathbf{A}$)。但如果它们恰好可以交换,这类变换在结构上会展现出极佳的对称美与谱性质(可正交对角化)。我们称这类行为良好的变换为“正规”变换。

定义:实正规变换

若线性变换 $\mathcal{A}$与其共轭变换$\mathcal{A}^*$ 可交换,即:

$$ \mathcal{A}\mathcal{A}^* = \mathcal{A}^*\mathcal{A} $$

则称 $\mathcal{A}$ 是实正规变换

  • 例子:正交变换 $U$(因 $UU^{-1}=U^{-1}U$)、对称变换 $A$(因 $AA=AA$)以及反对称变换 $A$(其共轭为 $-A$,满足 $A(-A)=(-A)A$),这些变换都是实正规变换的特例。

定义:正规矩阵

若实矩阵 $\mathbf{A}$ 满足:

$$ \mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A} $$

则称 $\mathbf{A}$ 是实正规矩阵

命题

线性变换 $\mathcal{A}$是实正规变换,当且仅当$\mathcal{A}$ 在标准正交基下的矩阵是实正规矩阵。

证明

根据前面算子与矩阵的对应关系,在标准正交基下,变换的复合对应矩阵的乘法。

$$ \mathcal{A}\mathcal{A}^* = \mathcal{A}^*\mathcal{A} \iff \mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A} $$

证毕。

实正规矩阵的结构定理与实对角化延伸

在复数域上,根据谱定理,任何正规矩阵都可以通过酉矩阵对角化。然而,当我们限制在实数域 $\mathbb{R}$ 上时,由于实多项式的特征根可能是复数(以共轭复根形式出现),实正规矩阵往往无法直接对角化为实对角矩阵。

为了在实数域内完美刻画正规矩阵的几何结构,我们需要借助不变子空间将其分解为一种高度规整的“块对角”标准形。

一、 核心基础:不变子空间与正交补的封闭性

动机

研究一个复杂线性变换的常用策略是“分而治之”——寻找空间中更小的、在变换作用下保持封闭的子空间。如果这类子空间的正交补同样保持封闭,我们就能将整个空间作正交直和分解,从而将大矩阵拆解为相互独立的块。

定义:不变子空间

设 $\mathbf{A} \in \mathbf{M}_n(\mathbb{R})$。若 $\mathbb{R}^n$的子空间$W$ 满足:

$$ \mathbf{A}W \subseteq W \quad (\text{即对任意 } w \in W, \text{ 都有 } \mathbf{A}w \in W) $$

则称 $W$是$\mathbf{A}$ 的不变子空间

证明 1):实矩阵总有 1 维或 2 维不变子空间

步骤与几何动机:

线性变换的特征多项式 $f(\lambda) = \det(\lambda \mathbf{I} - \mathbf{A})$ 是一组实系数多项式。根据代数基本定理,它在复数域内一定有解。

  • 情况一:存在实特征根 $\lambda_0 \in \mathbb{R}$

    此时存在对应的实特征向量 $v \in \mathbb{R}^n$使得$\mathbf{A}v = \lambda_0 v$。显然,由 $v$张成的 1 维子空间$W = \text{span}{v}$满足$\mathbf{A}W \subseteq W$。

  • 情况二:不存在实特征根,特征根全为共轭复根 $\alpha \pm i\beta$($\beta \neq 0$)

    设 $\mathbf{A}(x + iy) = (\alpha + i\beta)(x + iy)$,其中 $x, y \in \mathbb{R}^n$。展开复数等式并分离实虚部可得:

$$ \begin{cases} \mathbf{A}x = \alpha x - \beta y \\ \mathbf{A}y = \beta x + \alpha y \end{cases} $$

这说明 $\mathbf{A}$作用在实向量$x$和$y$上后的结果,依然落在由${x, y}$ 张成的空间内。因此,$W = \text{span}{x, y}$ 构成了一个 2 维不变子空间。

证明 2):若 $W$是实正规矩阵$\mathbf{A}$的不变子空间,则$W^\perp$也是$\mathbf{A}$ 的不变子空间

步骤与代数动机:

对于一般的矩阵,不变子空间的正交补不一定具有封闭性。但“正规性”($\mathbf{A}\mathbf{A}^T = \mathbf{A}^T\mathbf{A}$)提供了一种强对称性。我们要证明 $\mathbf{A}(W^\perp) \subseteq W^\perp$,只需证明对任意 $u \in W^\perp$和$w \in W$,都有 $(\mathbf{A}u, w) = 0$。

根据共轭变换的内积性质:

$$ (\mathbf{A}u, w) = (u, \mathbf{A}^T w) $$

由于 $u \in W^\perp$,若能证明 $\mathbf{A}^T w \in W$,则上述内积必然为 0。因此,问题转化为证明:“若 $W$是$\mathbf{A}$的不变子空间,则$W$也是$\mathbf{A}^T$ 的不变子空间”

引理: 若 $\mathbf{A}$为正规矩阵,则 对任意向量$x$,$|\mathbf{A}x| = |\mathbf{A}^T x|$。

证明: $|\mathbf{A}x|^2 = (\mathbf{A}x, \mathbf{A}x) = (x, \mathbf{A}^T\mathbf{A}x) = (x, \mathbf{A}\mathbf{A}^T x) = (\mathbf{A}^T x, \mathbf{A}^T x) = |\mathbf{A}^T x|^2$。

利用该引理,可以通过构造算子的迹或限制算子的特征多项式证明 $\mathbf{A}^T w \in W$。既然 $\mathbf{A}^T w \in W$,则对于 $u \in W^\perp$,必有 $(u, \mathbf{A}^T w) = 0$。

从而 $(\mathbf{A}u, w) = 0 \implies \mathbf{A}u \in W^\perp$,即 $W^\perp$也是$\mathbf{A}$ 的不变子空间。

二、 实正规矩阵的谱分解定理(块对角化)

动机

结合上述性质 1)和 2),我们可以对全空间进行递归的正交直和分解:$\mathbb{R}^n = W_1 \oplus W_2 \oplus \dots \oplus W_k$。在每个 1 维不变子空间上,变换表现为实数缩放;在每个 2 维不变子空间上,变换表现为一个不可约的 $2 \times 2$ 矩阵。将这些基底正交规范化后,便得到了实正规矩阵的标准形。

定理 3):实正规矩阵的标准形

若 $\mathbf{A}$是实正规矩阵,则存在正交矩阵$\mathbf{P}$,使得:

$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} \lambda_1 & & & & & \\ & \ddots & & & & \\ & & \lambda_s & & & \\ & & & \begin{matrix} a_1 & -b_1 \\ b_1 & a_1 \end{matrix} & & \\ & & & & \ddots & \\ & & & & & \begin{matrix} a_r & -b_r \\ b_r & a_r \end{matrix} \end{bmatrix} \mathbf{P}^T $$

这里 $\lambda_1, \dots, \lambda_s \in \mathbb{R}$是$\mathbf{A}$ 的实特征值;$a_i \pm ib_i$($b_i \neq 0$)是 $\mathbf{A}$ 的共轭复特征值。

其中 $2 \times 2$的分块$\begin{bmatrix} a_i & -b_i \ b_i & a_i \end{bmatrix}$ 在几何上对应了一个旋转加上一个均匀缩放。

三、 特殊正规矩阵的退化标准形

根据矩阵自身的代数约束,上述通式中的各个分块将受到进一步的限制。以下三种经典矩阵都是正规矩阵的特例:

定理 4):若 $\mathbf{A}$ 是正交矩阵

动机: 正交矩阵满足 $\mathbf{A}\mathbf{A}^T = \mathbf{I}$,这意味着它不仅能交换,而且保持所有向量的模长不变(保距性)。

  • 对 1 维块的约束: 必须满足 $\lambda_i^2 = 1 \implies \lambda_i = \pm 1$。

  • 对 2 维块的约束: 其特征值模长必须为 1,即 $a_i^2 + b_i^2 = 1$。因此我们可以令 $a_i = \cos\theta_i, b_i = \sin\theta_i$。

标准形展现为:

$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} \pm 1 & & & & \\ & \ddots & & & \\ & & \pm 1 & & \\ & & & \begin{matrix} \cos\theta_1 & -\sin\theta_1 \\ \sin\theta_1 & \cos\theta_1 \end{matrix} & \\ & & & & \ddots \end{bmatrix} \mathbf{P}^T $$

几何意义: 任何实正交变换都可以分解为若干个一维轴向的镜面反射($\pm 1$)与若干个二维平面内的纯旋转(旋转矩阵)的正交组合。

定理 5):若 $\mathbf{A}$ 是反对称实矩阵

动机: 反对称矩阵满足 $\mathbf{A}^T = -\mathbf{A}$,因此 $\mathbf{A}\mathbf{A}^T = -\mathbf{A}^2 = \mathbf{A}^T\mathbf{A}$。其特征值必须为纯虚数。

  • 对 1 维块的约束: 唯一的实纯虚数只有 $0$,故 $\lambda_i = 0$。

  • 对 2 维块的约束: 特征值 $a_i \pm ib_i$必须是纯虚数$\implies a_i = 0$。

标准形展现为:

$$ \mathbf{A} = \mathbf{P} \begin{bmatrix} 0 & & & & \\ & \ddots & & & \\ & & 0 & & \\ & & & \begin{matrix} 0 & -b_1 \\ b_1 & 0 \end{matrix} & \\ & & & & \ddots \end{bmatrix} \mathbf{P}^T $$

几何意义: 反对称矩阵在 1 维不变子空间上完全被投影压缩为 0,而在 2 维空间内则表现为相互正交的“漩涡式”两两交错的反对称分块。

阅读全文

笔记10. 对偶空间

线代 2026/5/26

想象一下,你手里有一台极其精密的测量仪器,它只能读取某个空间里向量在特定方向上的投影长度。如果你把这个向量看作一个“物体”,那么这台仪器本身就是一种对该物体进行“观测”的手段。

对偶空间(Dual Space)的本质动机,其实就是将“观测”本身也对象化
我们可以完全类似地,考虑函数的线性,考虑映射的线性。

线性泛函

在域 $K$上的线性空间$V$中,若映射$f: V \to K$ 满足以下线性条件:

  • 可加性: $f(\alpha + \beta) = f(\alpha) + f(\beta)$- 齐次性:$f(k\alpha) = kf(\alpha)$对于任意$\alpha, \beta \in V$及$k \in K$,则称 $f$为$V$ 上的线性泛函(Linear Functional)。

所谓泛函,也就是函数的函数。

  • 函数(Function): 输入是一个数(或一组数),输出是一个数。比如 $f(x) = x^2$。

  • 泛函(Functional): 输入是一个函数(即某种空间里的对象),输出是一个数。

如果把“函数”看作是向量空间里的一个“点”(向量),那么“泛函”就是定义在这个向量空间上的一个“实值函数”。

既然有了所谓线性泛函,自然就想到能否类似地延续向量的那一套研究逻辑,去考虑他们构成的线性空间。

对偶空间

对偶空间的定义

  • 运算定义: 线性泛函之间可以进行加法和标量乘法运算:

    • $(f+g)(\alpha) := f(\alpha) + g(\alpha)$-$(kf)(\alpha) := kf(\alpha)$- 空间构成: 所有定义在$V$上的线性泛函在上述运算下构成一个新的$K$-线性空间,称为 $V$的对偶空间,记作$V^*$或$\text{Hom}(V, K)$。

典型实例

  • 矩阵空间: 对于 $n$阶矩阵空间$M_n(K)$,迹函数(trace)是一个经典的线性泛函:$\text{tr}: A \mapsto \text{tr}(A)$。此外,提取矩阵分量的映射 $t_{ij}: A \mapsto a_{ij}$ 也是线性泛函。

  • 函数空间: 对于连续函数空间 $C[a, b]$,积分运算提供了一种线性泛函:$f \mapsto \int_a^b f(x)g(x)dx$(其中 $g(x)$ 是固定的函数)。

有了空间,自然就会去思考如何表示整个空间,一如向量空间,我们考虑选基底。如何选取好呢,应该充分利用线性,同时又最好让基底很简单,就像一个单位矩阵那样。

对偶基(Dual Basis)的构造

理想的情况是,在给定基 ${\alpha_1, \dots, \alpha_n}$的情况下,任何线性泛函$f$都可以唯一地表示为对偶基${\alpha_1^, \dots, \alpha_n^}$ 的线性组合:

$$ f = \sum_{i=1}^n c_i \alpha_i^* $$

我们拿 $f$去作用一个$\alpha=\sum c_i\alpha_i$ ,那么利用线性:

$$ f(\alpha)=\sum c_if(\alpha_i) $$

那么归根结底,我们只需要 $f(\alpha_i)$,这$n$个值通过原空间的系数相组合,就能够得到$f$作用的结果,换言之,线性泛函的值由其在基向量上的取值唯一确定。但这些是数,我们需要的是对偶空间的元素——线性泛函。那么问题就是,我们如何抽象出提取$c_i$这件事,好让我们的$f$能够一般地写出,而不必依赖一个特定向量$\alpha$ 。回忆向量空间,如果有一组标准正交基,那么我们做内积就能得到对应系数,但是对偶空间没这么麻烦,我们直接定义一个这样的泛函就好了:

对于有限维线性空间 $V$,选定一组基 ${\alpha_1, \dots, \alpha_n}$后,在$V^$中会对应产生一组*对偶基${\alpha_1^, \dots, \alpha_n^}$。

  • 对偶基定义: 对偶基满足以下克罗内克积(Kronecker delta)性质:

$$ \alpha_i^*(\alpha_j) = \delta_{ij} = \begin{cases} 1, & i=j \\ 0, & i \neq j \end{cases} $$

这意味着 $\alpha_i^*$的作用如同一个“选择器”,当输入是第$j$个基向量时,仅在$i=j$ 时输出 1,其余情况输出 0。

选定一组基,自动就产生这 $n$ 个对偶基。那么我们可以看似画蛇添足地写出:

$$ \alpha = \sum_{j=1}^n \alpha_j^*(\alpha) \alpha_j $$

这里的对偶基就相当于在提取系数,而这个过程则可以得到抽象,我们可以扔掉 $\alpha$对应的系数而写出$f$ 的表达:

$$ f = \sum_{j=1}^n f(\alpha_j) \alpha_j^* $$

无关性

对偶基 ${\alpha_1^, \dots, \alpha_n^}$不仅是$V^*$ 的一组生成元,而且是线性无关的:

  • 若 $\sum k_i \alpha_i^* = 0$,将此等式作用于任意基向量 $\alpha_i$:

$$ \left(\sum k_j \alpha_j^*\right)(\alpha_i) = \sum k_j \delta_{ji} = k_i = 0 $$

  • 因此,所有系数 $k_i$必须为 0,这证明了它们构成$V^$的一组基。这也直接推导出:*若$V$是$n$维的,则$V^$也是$n$ 维的*

同构(Isomorphism)的微妙之处

  • 有限维情况: 由于 $\dim(V) = \dim(V^) = n$,空间 $V$与$V^$ 是同构的 ($V \cong V^*$)。

  • 非自然性(Not Natural): 虽然它们同构,但这种同构依赖于你选取的基底。一旦你换了一组基,原本的映射关系就会改变。因此,这种同构不是“自然”的(即不存在不依赖基底的统一同构映射)。

  • 无限维情况: 对于无限维空间,$V$与$V^$ 通常*不同构(对偶空间的维度往往比原空间更大)。

既然我们有坐标,为什么还要绕到 $V^*$ 里去?

动机在于:我们要研究的是“变换”,而不是“位置”。

当我们在原空间 $V$做了一个线性变换$A$(比如旋转、拉伸),原空间里的向量位置变了。但这个变换也会改变我们测量事物的“标准”。当你从基 ${\alpha}$变到基${\beta}$,坐标会变。为了保持物理意义(例如,我测量的总能量不能因为我换了个坐标系就变了),我的测量工具 $\alpha^*$ 必须以一种“反向”的补偿方式(即逆矩阵或转置矩阵)进行调整。

对偶基的变换

在有限维线性空间 $V$中,当我们改变原空间的基时,对偶空间$V^*$ 中的对偶基会如何随之改变?

定理(对偶基的变化规律)

设有限维线性空间 $V$从一组基$\alpha_1, \dots, \alpha_n$到另一组基$\beta_1, \dots, \beta_n$的过渡矩阵为$U$,即:

$$ (\beta_1 \ \dots \ \beta_n) = (\alpha_1 \ \dots \ \alpha_n) U $$

则以上两组基在 $V^$中的对偶基$\alpha_1^, \dots, \alpha_n^$与$\beta_1^, \dots, \beta_n^*$ 具有如下反变关系:

$$ (\beta_1^* \ \dots \ \beta_n^*) = (\alpha_1^* \ \dots \ \alpha_n^*) (U^T)^{-1} $$

感性分析

为了维持这种“输入特定基向量就精准输出 1 或 0”的选择器功能,当原空间的基向量通过 $U$ 进行了线性组合(变得更加稠密或稀疏)时,对偶空间的泛函必须进行相反方向的补偿演化。这种几何上的“反变”(Contravariant)特性,在代数上的体现就是转置的逆。

规范化证明

我们会运用算两次的思想。

设 $\alpha_1^, \dots, \alpha_n^$到$\beta_1^, \dots, \beta_n^$的过渡矩阵为$B$,即:

$$ (\alpha_1^* \ \dots \ \alpha_n^*) = (\beta_1^* \ \dots \ \beta_n^*) B $$

我们的目标是求出 $B$与$U$的关系。令$B = [b_{ij}]$,$U = [u_{ij}]$。根据矩阵乘法的展开:

  1. 泛函的表示:$\alpha_j^* = \sum_{k=1}^n b_{kj} \beta_k^*$

  2. 向量的表示:$\beta_i = \sum_{m=1}^n u_{mi} \alpha_m$现在,我们让泛函$\alpha_j^*$作用于向量$\beta_i$来得到$u_{ji}$,这利用对偶基的性质是显然的,那么我们可以看看这是否会得到$u$ 的性质:

  • 视角一(利用 $\beta$ 组的对偶性质):

$$ \alpha_j^*(\beta_i) = \left( \sum_{k=1}^n b_{kj} \beta_k^* \right) (\beta_i) = \sum_{k=1}^n b_{kj} \beta_k^*(\beta_i) $$

因为 $\beta_k^*(\beta_i) = \delta_{ki}$,所以上式中只有 $k=i$ 的项存活下来:

$$ \alpha_j^*(\beta_i) = b_{ij} $$

  • 视角二(利用 $\alpha$ 组的对偶性质):

$$ \alpha_j^*(\beta_i) = \alpha_j^* \left( \sum_{m=1}^n u_{mi} \alpha_m \right) = \sum_{m=1}^n u_{mi} \alpha_j^*(\alpha_m) $$

因为 $\alpha_j^*(\alpha_m) = \delta_{jm}$,所以上式中只有 $m=j$ 的项存活下来:

$$ \alpha_j^*(\beta_i) = u_{ji} $$

结合两个视角的结果,我们得到 $b_{ij} = u_{ji}$,因此 $B = U^T$。

将其代回原假设方程:

$$ (\alpha_1^* \ \dots \ \alpha_n^*) = (\beta_1^* \ \dots \ \beta_n^*) U^T $$

两边同时右乘 $(U^T)^{-1}$,即得:

$$ \mathbf{(\beta_1^* \ \dots \ \beta_n^*) = (\alpha_1^* \ \dots \ \alpha_n^*) (U^T)^{-1}} $$

证明闭环。

算子的对偶能原封不动地保留吗?

在建立了基底变换的观念后,我们可以思考一个非常古典的数学提问:

思考题:设 $V$是$n$ 维线性空间,$V^$是其对偶空间。任给一个从$V$到$V^$的线性同构$A$,问能否找到 $V$的一组基$\beta_1, \dots, \beta_n$,使得该算子对基向量的作用,恰好等同于该基对应的对偶基?即:

$$ A(\beta_1) = \beta_1^*, \ \dots \ , A(\beta_n) = \beta_n^* $$

先考虑一个更简单的事情:
定义两个线性映射 $\mathbb{A}, \mathbb{B}: V \to V^*$:

  1. 映射 $\mathbb{A}$ 的定义:它是让旧基底与旧对偶基强行绑定。

    当 $\mathbb{A}$作用于行向量$(\alpha_1 \dots \alpha_n)$时,它把每个$\alpha_i$映射成对应的$\alpha_i^*$:

$$ \mathbb{A}(\alpha_1 \dots \alpha_n) = (\alpha_1^* \dots \alpha_n^*) I_n = (\alpha_1^* \dots \alpha_n^*) $$

  1. 映射 $\mathbb{B}$ 的定义:它是新基底与新对偶基的强行绑定。

    当 $\mathbb{B}$ 作用于新基底行向量时,同理有:

$$ \mathbb{B}(\beta_1 \dots \beta_n) = (\beta_1^* \dots \beta_n^*) I_n = (\beta_1^* \dots \beta_n^*) $$

若原空间基底有如下变换:

$$ (\beta_1 \dots \beta_n) = (\alpha_1 \dots \alpha_n) U $$

对偶基的反变规律:

$$ (\beta_1^* \dots \beta_n^*) = (\alpha_1^* \dots \alpha_n^*) (U^T)^{-1} $$

现在,我们把映射 $\mathbb{B}$ 的定义代入到对偶基变换公式的左边:

$$ \mathbb{B}(\beta_1 \dots \beta_n) = (\alpha_1^* \dots \alpha_n^*) (U^T)^{-1} $$

接着,利用基底变换 $\beta = \alpha U$,把左边括号里的 $\beta$ 换掉:

$$ \mathbb{B}\big( (\alpha_1 \dots \alpha_n) U \big) = (\alpha_1^* \dots \alpha_n^*) (U^T)^{-1} $$

因为 $\mathbb{B}$是一个线性映射,它作用在向量的线性组合上时,矩阵$U$可以直接根据线性性质提到映射的外面(注意:由于基底是行向量,矩阵$U$ 在右边,提出来后依然在右边):

$$ \mathbb{B}(\alpha_1 \dots \alpha_n) \cdot U = (\alpha_1^* \dots \alpha_n^*) (U^T)^{-1} $$

最后,为了孤立出 $\mathbb{B}(\alpha_1 \dots \alpha_n)$,我们在等式两边同时右乘 $U^{-1}$

$$ \mathbb{B}(\alpha_1 \dots \alpha_n) = (\alpha_1^* \dots \alpha_n^*) (U^T)^{-1} U^{-1} $$

利用矩阵求逆的性质 $(U^T)^{-1} U^{-1} = (U U^T)^{-1}$,最终得到:

$$ \mathbf{\mathbb{B}(\alpha_1 \dots \alpha_n) = (\alpha_1^* \dots \alpha_n^*) (U U^T)^{-1}} $$

如果我们把旧映射 $\mathbb{A}$的定义$\mathbb{A}(\alpha_1 \dots \alpha_n) = (\alpha_1^* \dots \alpha_n^*)$ 代入最终结果,就会得到:

$$ \mathbb{B}(\alpha) = \mathbb{A}(\alpha) (U U^T)^{-1} $$

这说明了什么?

  1. 当过渡矩阵 $U$是正交矩阵时(即$U U^T = I$),$(U U^T)^{-1} = I$,此时 $\mathbb{B} = \mathbb{A}$。这意味着,如果你在原空间做的是刚性旋转(正交变换),那么这种“把基底无缝发射到对偶基”的同构映射在旋转后能够原封不动地保留!

  2. 当过渡矩阵 $U$不是正交矩阵时,新旧映射之间就会拉开一个度量上的修正项$(U U^T)^{-1}$。这个修正项本质上就是新基底的度量张量(Metric Tensor)的逆

那么给一个固定死、不能动的线性同构 $A: V \to V^*$。

想找一组基 $\beta = (\beta_1 \dots \beta_n)$,使得:

$$ A(\beta_1 \dots \beta_n) = (\beta_1^* \dots \beta_n^*) $$

我们随便借用一组已知的旧基底 $\alpha = (\alpha_1 \dots \alpha_n)$和它对应的对偶基$\alpha^* = (\alpha_1^* \dots \alpha_n^*)$。

由于 $A$是一个已知的算子,它在旧基底$\alpha$下必然有一个已经固定下来的矩阵表示,不妨设为$M$(这是一个 $n \times n$ 的可逆矩阵):

$$ A(\alpha_1 \dots \alpha_n) = (\alpha_1^* \dots \alpha_n^*) M $$

现在,寻找基底 $\beta$的问题,本质上就是寻找一个过渡矩阵$U$(使得 $\beta = \alpha U$),让新基底满足题目的要求。把 $\beta = \alpha U$ 代入方程:

$$ A(\alpha U) = (\beta_1^* \dots \beta_n^*) $$

  • 左边展开(利用 $A$的线性性质和已知矩阵$M$):

$$ A(\alpha U) = A(\alpha) U = (\alpha^* M) U = \alpha^* (MU) $$

  • 右边展开(利用对偶基的反变规律):

$$ (\beta_1^* \dots \beta_n^*) = \alpha^* (U^T)^{-1} $$

两边强行碰撞(提炼共识):

要让左右两边完全相等,由于 $\alpha^*$ 是对偶空间的一组基(线性无关),它们前面的系数矩阵必须完全相等:

$$ MU = (U^T)^{-1} $$

两边同时左乘 $U^T$:

$$ \mathbf{U^T M U = I_n} $$

现在问题转化为了:已知一个可逆矩阵 $M$,能否找到一个可逆矩阵 $U$,使得 $U^T M U = I_n$?

在矩阵代数中, $U^T M U$ 这个动作叫做合同变换(Congruence)

我们对矩阵 $M$ 的类型进行分情况评估:

情况一:如果 $M$ 不是对称矩阵($M \neq M^T$)

  • 风险/事实:如果一个矩阵通过 $U^T M U$能变成单位矩阵$I_n$,那么两边同时转置:

$$ (U^T M U)^T = I_n^T \implies U^T M^T U = I_n $$

这意味着 $U^T M U = U^T M^T U$,因为 $U$ 可逆,两边消去后必然导致 $M = M^T$

  • 结论:如果给定的同构 $A$在某组基下的矩阵$M$不对称,那么无论你怎么更换基底,$U^T M U = I_n$永远不可能成立。也就是说,此时绝对找不到这样的基底$\beta$

情况二:如果 $M$ 是对称矩阵($M = M^T$)

  • 事实:根据二次型的合同对角化理论,一个对称矩阵 $M$合同于$I_n$,当且仅当 $M$ 是正定矩阵(在复数域下只需要可逆对称即可,这里我们默认在实数域讨论)。

  • 结论:只有当 $M$是正定对称矩阵时,我们才能通过 Gram-Schmidt 正交化或者特征值分解找到这个过渡矩阵$U$。

这个思考题的完整回答是:

不能任给。 能否找到这样一组基,完全取决于这个线性同构 $A$ 的几何性质。

  1. 如果 $A$诱导的双线性映射$\Phi(u, v) = A(u)$是一个正定内积(即满足对称性和正定性),那么我们一定能找到这样的一组基$\beta$(这组基其实就是该内积下的标准正交基)。

  2. 如果 $A$连对称性都不满足(例如$A(u)(v) \neq A(v)(u)$),那么在有限维空间里,哪怕你穷尽所有基底的组合,也绝对无法让该算子对基向量的作用恰好等于对偶基。

这个问题深刻地揭示了“天然同构”的缺失。虽然 $V$和$V^*$维数相同、必然同构,但这种同构$A$ 依赖于基底的选择。上述问题本质上是在寻找一个“不动点基底”,让几何算子与代数对偶达到完美的镜像对称。

算子的影子:对偶变换(Dual Transformation)

当我们不在空间层面折腾基底,而是让空间内部的向量发生线性变换时,对偶空间里的泛函会发生什么?这就是对偶变换(或称转置变换)的由来。

动机与定义

设 $A$是$V$ 上的线性变换($A \in \text{Hom}(V)$)。对于任何一个线性泛函 $f \in V^*$,由于 $A$把向量$\alpha$变成了$A\alpha$,我们自然可以定义一个新的泛函,它先对向量施加 $A$,再施加 $f$。

这构成了函数的复合:$f \circ A$。显然,这个新函数依然是线性的,因此 $f \circ A \in V^*$。

我们定义这样一个映射 $A^*$,它接受一个泛函 $f$,并吐出一个新泛函 $f \circ A$:

$$ A^*: V^* \to V^*, \quad f \mapsto f \circ A $$

也就是说:

$$ \mathbf{A^*(f)(\alpha) = f(A\alpha), \quad \forall \alpha \in V} $$

这个 $A^*$ 就称为 $A$ 的对偶变换(Dual Transformation)

对偶变换的矩阵表示

在线性代数中,我们最关心的是:如果算子 $A$在某组基下的矩阵是$M$,那么 $A^*$ 在对应的对偶基下的矩阵是什么?

定理

设 $\alpha_1, \dots, \alpha_n$是$V$ 的一组基,$\alpha_1^, \dots, \alpha_n^$ 是其对偶基。$A$是$V$ 上的线性变换。

若 $A$ 在该基下的矩阵表示为:

$$ A(\alpha_1 \ \dots \ \alpha_n) = (\alpha_1 \ \dots \ \alpha_n) A_M $$

则对偶变换 $A^$ 在对偶基下的矩阵表示为其*转置矩阵

$$ \mathbf{A^*(\alpha_1^* \ \dots \ \alpha_n^*) = (\alpha_1^* \ \dots \ \alpha_n^*) A_M^T} $$

规范化证明

设 $A^*$在对偶基下的变换矩阵为$B$,即:

$$ A^*(\alpha_1^* \ \dots \ \alpha_n^*) = (\alpha_1^* \ \dots \ \alpha_n^*) B $$

设 $A_M = [a_{ij}]$且$B = [b_{ij}]$。根据定义:

  1. 原空间变换的展开:$A\alpha_j = \sum_{k=1}^n a_{kj} \alpha_k$

  2. 对偶空间变换的展开:$A^\alpha_i^ = \sum_{m=1}^n b_{mi} \alpha_m^$为了找到$a_{ij}$与$b_{ij}$的内在联系,我们考察泛函$A^\alpha_i^*$作用在基向量$\alpha_j$ 上的行为,并再次进行双视角推演:

  • 视角一(直接展开对偶算子的矩阵):

$$ (A^*\alpha_i^*)(\alpha_j) = \left( \sum_{m=1}^n b_{mi} \alpha_m^* \right) (\alpha_j) = \sum_{m=1}^n b_{mi} \alpha_m^*(\alpha_j) $$

由于 $\alpha_m^*(\alpha_j) = \delta_{mj}$,只有 $m=j$ 项留存:

$$ (A^*\alpha_i^*)(\alpha_j) = b_{ji} $$

  • 视角二(退回到对偶算子的原初定义):

    根据对偶变换的定义,$(A^* \alpha_i^)(\alpha_j) = \alpha_i^(A\alpha_j)$。我们将 $A\alpha_j$ 的展开式代入:

$$ \alpha_i^*(A\alpha_j) = \alpha_i^* \left( \sum_{k=1}^n a_{kj} \alpha_k \right) = \sum_{k=1}^n a_{kj} \alpha_i^*(\alpha_k) $$

由于 $\alpha_i^*(\alpha_k) = \delta_{ik}$,只有 $k=i$ 项留存:

$$ \alpha_i^*(A\alpha_j) = a_{ij} $$

共识提炼与结论:

比对两种视角的结果,在数学的闭环下,我们必然有:

$$ b_{ji} = a_{ij} $$

这说明矩阵 $B$的第$j$行第$i$列元素,等于矩阵$A_M$的第$i$行第$j$ 列元素。

由此得出,$B = A_M^T$

这意味着,对偶算子在对偶基下的矩阵,恰好是原算子在原基下矩阵的转置。

算子熄灭的战场:零化子空间(Annihilator)

在引入几何对偶前,我们需要一个工具来建立子空间之间的对应。如果说原空间里有些向量被“消灭”了,那么在对偶空间里是谁执行了这场谋杀?

定义(零化子/Annihilator)

设 $V$是$n$ 维线性空间,$W$是$V$的一个$r$维子空间。定义$W$在$V^$中的*零化子空间(图片中写作$W^\perp$)为:

$$ W^\perp = \{ \beta^* \in V^* \mid \beta^*(\alpha) = 0, \ \forall \alpha \in W \} $$

则 $W^\perp$是对偶空间$V^*$ 的一个 $n-r$ 维子空间

结构分析

为什么维数恰好是 $n-r$?我们可以通过扩充基底的视角一目了然:

我们在 $W$中任选一组基$\alpha_1, \dots, \alpha_r$,并将其扩充为整个 $V$ 的一组基:

$$ V \text{ 的基}: \quad \underbrace{\alpha_1, \dots, \alpha_r}_{W \text{ 的基}}, \alpha_{r+1}, \dots, \alpha_n $$

相应地,这组基在对偶空间 $V^*$ 中自动产生了一组对偶基:

$$ V^* \text{ 的对偶基}: \quad \alpha_1^*, \dots, \alpha_r^*, \alpha_{r+1}^*, \dots, \alpha_n^* $$

现在,什么样的泛函 $f = \sum_{i=1}^n k_i \alpha_i^$能把$W$里的向量全部杀死?因为$W$里的向量全由$\alpha_1, \dots, \alpha_r$线性表出,根据对偶基的选择器性质$\alpha_i^(\alpha_j) = \delta_{ij}$,这个泛函在前 $r$ 个基向量上的取值必须锁死为 0。

这意味着:

$$ k_1 = k_2 = \dots = k_r = 0 $$

因此,所有这样的泛函只能由后 $n-r$ 个对偶基向量自由组合而成:

$$ W^\perp = \text{span}\{\alpha_{r+1}^*, \dots, \alpha_n^*\} $$

维数定理 $\dim W + \dim W^\perp = \dim V$ 自然闭环。

子空间的镜像反转:对偶原理

零化子不仅仅是一个子空间,它构成了一个一一映射。它把 $V$的子空间集合,映射到$V^$ 的子空间集合。最迷人的是,这个映射将空间中所有的*包含关系全部颠倒了过来

1. 核心定理(包含关系的镜像反转)

设 $W, W_1, W_2$是$V$ 的子空间,则满足以下对偶性质:

  1. 二次回归:$(W^\perp)^\perp = W$ (在自然同构的意义下)

  2. 包含反向:若 $W_1 \subseteq W_2$,则 $W_1^\perp \supseteq W_2^\perp$

  3. 交变并:$(W_1 \cap W_2)^\perp = W_1^\perp + W_2^\perp$

  4. 并变交:$(W_1 + W_2)^\perp = W_1^\perp \cap W_2^\perp$

2. 多视角推演:为什么“交”会变成“并”?

我们尝试从逻辑链条的第一性原理来批判性评估性质 4 $(W_1 + W_2)^\perp = W_1^\perp \cap W_2^\perp$:

  • 视角一(直观拦截): 一个泛函想要把 $W_1 + W_2$里的所有向量(形式为$\alpha_1 + \alpha_2$)都变成 0,它必须具备什么能力?它必须既能把整个 $W_1$杀干净(属于$W_1^\perp$),又能把整个 $W_2$杀干净(属于$W_2^\perp$)。两项任务必须同时满足,代数上自然体现为“交集” $\cap$。

  • 视角二(维数核对): 根据左边:$\dim(W_1 + W_2)^\perp = n - \dim(W_1 + W_2)$。

    根据右边:利用子空间维数公式,$\dim(W_1^\perp \cap W_2^\perp) = \dim W_1^\perp + \dim W_2^\perp - \dim(W_1^\perp + W_2^\perp)$。

    代入零化子维数规律,两边的代数算账完全吻合。

自然同构:逃离基底的羁绊(二次对偶空间 $V^{}$)

我们在前面的讨论中反复强调过:有限维的 $V$与$V^*$ 虽然同维数、必同构,但它们的同构严重依赖于基底的选取。 没有基底,你根本不知道把一个向量发射给谁。

但是,如果我们对对偶空间再做一次对偶,神奇的事情发生了——从 $V$到二次对偶空间$V^{}$,存在一个不需要任何基底参与的“天然而自然”的线性同构

1. 动机分析:把向量伪装成“算子的算子”

原本,泛函 $f$是一个算子,它吞掉向量$\alpha$,吐出数字:$f(\alpha)$。

现在我们换个视角:为什么不能把向量 $\alpha$看作一个算子,让它去吞掉泛函$f$,同样吐出数字 $f(\alpha)$ 呢?

这就是二次对偶的精妙伪装。

2. 规范化构造

对任意的 $\alpha \in V$,我们定义一个作用在泛函上的函数 $\alpha^{}$(即 $\sigma(\alpha)$):

$$ \sigma: V \to V^{**}, \quad \alpha \mapsto \alpha^{**} $$

其中, $\alpha^{}$ 作为一个以泛函为输入的函数,其定义为:

$$ \mathbf{\alpha^{**}(f) = f(\alpha), \quad \forall f \in V^*} $$

3. 规范化证明:为什么 $\sigma$ 是一个自然的线性同构?

我们要分三步对这个映射进行逻辑闭环的批判性评估:

  • 第一步:证明 $\alpha^{}$确实是$V^*$上的线性泛函(即$\alpha^{} \in V^{}$)

    任取 $f, g \in V^*, c \in \mathbb{R}$,利用泛函加法与数乘的定义:

$$ \alpha^{**}(cf + g) = (cf + g)(\alpha) = c f(\alpha) + g(\alpha) = c \alpha^{**}(f) + \alpha^{**}(g) $$

验证通过。

  • 第二步:证明 $\sigma$ 本身是一个线性映射

    我们要看 $\sigma(c\alpha + \beta)$对任意泛函$f$ 的作用:

$$ (c\alpha + \beta)^{**}(f) = f(c\alpha + \beta) = c f(\alpha) + f(\beta) = c \alpha^{**}(f) + \beta^{**}(f) $$

这说明 $\sigma(c\alpha + \beta) = c\sigma(\alpha) + \sigma(\beta)$。映射具有线性。

  • 第三步:证明 $\sigma$ 是单射(有限维时单射自动等价于同构)

    只需证其核 $\text{Ker}(\sigma) = {0}$。假设存在一个向量 $\alpha$使得$\sigma(\alpha) = 0$(即零泛函)。

    这意味着对所有的泛函 $f \in V^*$,都有 $\alpha^{}(f) = f(\alpha) = 0$。

    如果 $\alpha \neq 0$,根据对偶基的存在性定理,我们必然能构造出一个对偶基泛函 $\alpha_1^$使得$\alpha_1^(\alpha) = 1 \neq 0$,这得到了矛盾。

    因此,唯一的可能是 $\alpha = 0$。

    _结论:$\sigma$是单射。在有限维空间中,因为$\dim V = \dim V^* = \dim V^{**}$,单射自动成为满射,同构成立。*

无限维的崩塌:当镜面破裂时

所有的美丽童话都在无限维空间里戛然而止。在无限维多项式空间下,原空间与对偶空间的同构关系彻底瓦解。

1. 反例场景耦合:有理数域上的多项式空间

设 $V = \mathbb{Q}[x]$ 是由所有有理系数多项式构成的线性空间。它的标准基底是可数的:

$$ \text{基底}: \{1, x, x^2, \dots, x^n, \dots\} $$

这意味着, $V$ 中的任何一个元素(多项式)都只能是有限多项的线性组合。

$$ V \cong \{ (a_0, a_1, a_2, \dots) \mid a_i \in \mathbb{Q}, \text{其中只有有限个 } a_i \neq 0 \} $$

2. 对偶空间演变为“形式幂级数”

现在我们来看 $V$上的线性泛函$b^* \in V^*$。一个泛函要想由基底取值唯一确定,它必须对每一个 $x^i$都指定一个输出数字$b_i$。

因为基底有无穷多个,这个泛函就可以毫无约束地指定无穷多个数字 $(b_0, b_1, b_2, \dots)$。它在作用于向量时,由于向量只有有限项非零,求和永远不会产生无穷大:

$$ b^*(\alpha) = a_0b_0 + a_1b_1 + a_2b_2 + \dots \quad (\text{绝对是有限项相加}) $$

这就意味着,对偶空间 $V^*$ 容纳了所有的形式幂级数(Formal Power Series)

$$ V^* \cong \mathbb{Q}[[x]] = \{ (b_0, b_1, b_2, \dots) \mid b_i \in \mathbb{Q} \quad \text{可以有无限个非零项} \} $$

3. 决定性的宏观结论(置信度:高)

根据集合论(康托尔三分律与基数理论):

  • 原空间 $V = \mathbb{Q}[x]$ 的基底个数是可数无穷($\aleph_0$)。

  • 对偶空间 $V^$ 的基底由于允许无限序列的任意组合,其向量个数的基数已经变成了*不可数无穷(张量连续统基数)。

最终批判性结论:由于两个空间的基数(维数)在本质上拉开了不可逾越的鸿沟,在无限维空间中, $V \not\cong V^*$。这也是为什么在泛函分析中,我们必须额外引入拓扑和连续性(拓扑对偶空间)来强行挽回对偶特性的根本原因。

阅读全文

12.级数 III —— 函数项级数

2026/5/26

我们熟悉的几何级数,可以看做一个泰勒展开:

$$ \frac{1}{1-x} = 1 + x + x^2 + \dots + x^n + o(x^n) $$

这像是函数的级数,那么在什么情况下,这个等式可以写成无穷级数的形式?

$$ \frac{1}{1-x} = \sum_{n=0}^{\infty} x^n \quad (?) $$

  • 观察点:当 $x \to 0$(或者更准确地说,在收敛半径 $|x| < 1$ 内)时,这种转化才具有数学意义。

函数项级数

函数项级数的定义:

  • 定义形式

$$ \sum_{n=1}^{\infty} u_n(x), \quad x \in X $$

其中 $u_n(x)$是定义在集合$X$ 上的函数序列。

  • 部分和函数 (Partial Sum Function)

$$ S_n(x) = \sum_{k=1}^{n} u_k(x) $$

这是级数前 $n$项的和,它本身也是一个关于$x$ 的函数。

  • 和函数 (Sum Function)

    当 $n \to \infty$时,如果部分和函数序列${S_n(x)}$ 趋于一个极限,这个极限被称为和函数,记作:

$$ S_n(x) \longrightarrow S(x) $$


函数序列的极限与收敛

我们考虑函数序列 ${f_n}$ 的所谓极限和收敛,试着对其运用我们在数项级数的想法。

1. 前提条件

  • 共同定义域:设函数序列 ${f_n(x)}$中的每一个函数都定义在同一个集合$X$ 上。

  • 逐点存在性:对于定义域 $X$中的每一个确定的自变量$x$,数列 ${f_n(x)}$(此时已坍缩为常数数列)的极限都存在。

2. 极限函数的定义

  • 如果上述极限存在,我们可以定义一个新的函数 $f(x)$,其在点 $x$ 的取值即为该数列的极限:

$$ \lim_{n \to \infty} f_n(x) = f(x) $$

  • 此时,$f(x)$被称为函数序列${f_n}$ 的极限函数 (Limit Function)

3. 记号与表述

  • 这种关系记为:

$$ f_n \xrightarrow{n \to \infty} f \quad (\text{在 } X \text{ 上}) $$

  • 这意味着函数序列 ${f_n}$在集合$X$上逐点收敛于$f$。

逐点收敛

逐点收敛关注的是“局部”的胜利。如果我们把函数序列想象成一群向终点线跑去的运动员,逐点收敛只要求每个运动员最终都能到达自己的终点,但并不要求他们到达的速度是一致的。

一致收敛

设函数序列 ${f_n}$在集合$X$上收敛于极限函数$f$。

若对于任意给定的 $\varepsilon > 0$,都存在一个只与 $\varepsilon$有关的自然数$N_{\varepsilon}$,使得当 $n \geq N_{\varepsilon}$时,对于一切$x \in X$,都有:

$$ |f_n(x) - f(x)| < \varepsilon $$

则称函数序列 ${f_n}$在$X$上一致收敛于$f$。

记法

$$ f_n \rightrightarrows f, \quad x \in X $$

(注意:这里使用了双箭头来区别于逐点收敛的单箭头)。


一致收敛 vs. 逐点收敛

两者的本质区别在于 $N$对$x$ 的依赖性

  • 逐点收敛:对于不同的点 $x$,收敛的速度可以不同。为了达到同样的精度 $\varepsilon$,有些点可能需要 $n=100$,有些点可能需要 $n=10000$。这意味着 $N$是$\varepsilon$和$x$ 的函数:$N(\varepsilon, x)$。

  • 一致收敛:存在一个“全场通用”的 $N$。只要 $n$足够大,整个函数曲线会作为一个整体进入极限函数$f(x)$的$\varepsilon$-邻域内。此时 $N$ 只取决于精度要求:$N(\varepsilon)$。

示例:幂函数序列

1. 设定条件

设函数序列为:

$$ f_n(x) = x^n, \quad x \in [0, 1] $$

2. 逐点收敛过程

当 $n \to \infty$时,我们分情况讨论每个点$x$ 的极限:

  • 当 $0 \leq x < 1$ 时:根据幂函数的性质,$\lim_{n \to \infty} x^n = 0$。

  • 当 $x = 1$时:对于任何$n$,$1^n$始终为$1$,故 $\lim_{n \to \infty} 1^n = 1$。

由此得到极限函数 $f(x)$:

$$ f(x) =

\begin{cases}

0, & x \in [0, 1) \

1, & x = 1

\end{cases}
$$

3. 核心结论

收敛但不一致

  • 为什么不一致?

    观察图像可以看到,随着 $n$增大,曲线虽然在绝大部分区域向下“塌陷”趋近于$0$,但在 $x=1$附近,曲线始终需要从$0$附近陡峭地升至$1$。

    这意味着:

    1. 连续性破坏:所有的子项 $f_n(x) = x^n$都是完美的连续函数,但它们的极限函数$f(x)$在$x=1$ 处发生了跳跃(不连续)。

    2. 速度不均:越靠近 $1$的点,收敛到$0$的速度越慢。你无法找到一个统一的$N$,让整条曲线在 $x=1$附近也进入极限函数的$\varepsilon$-邻域。

例 :利用均值不等式判定一致收敛

1. 问题设定

设函数序列 $f_n(x) = x^n(1-x)^n$,定义域为 $x \in [0, 1]$。

2. 判定过程

  • 逐点极限:显然,对于 $[0, 1]$内的任意$x$,当 $n \to \infty$ 时,$f_n(x) \to 0$。即极限函数 $f(x) \equiv 0$。

  • 寻找一致上界:我们需要估计 $|f_n(x) - f(x)| = |x(1-x)|^n$ 的最大值。 根据算术-几何平均值不等式(AM-GM Inequality):

$$ x(1-x) \leq \left( \frac{x + (1-x)}{2} \right)^2 = \frac{1}{4} $$

因此:

$$ |f_n(x) - 0| \leq \left( \frac{1}{4} \right)^n $$

  • 结论:由于上界 $\left( \frac{1}{4} \right)^n$与$x$无关,且当$n \to \infty$时趋于$0$,所以:

$$ f_n \rightrightarrows 0 \quad (\text{在 } [0, 1] \text{ 上一致收敛}) $$


例 :收敛域缩减保证一致收敛

1. 问题设定

设函数序列 $f_n(x) = x^n$,但此时定义域限制在 $x \in [0, a]$,其中 $0 < a < 1$。

2. 判定过程

  • 逐点极限:由于 $a < 1$,对于该区间内所有 $x$,都有 $\lim_{n \to \infty} x^n = 0$。

  • 寻找一致上界: 由于 $f_n(x) = x^n$在$[0, a]$上是单调递增的,其最大值必然在右端点$a$ 处取得:

$$ |f_n(x) - 0| \leq a^n $$

  • 结论: 因为 $0 < a < 1$,所以当 $n \to \infty$ 时,$a^n \to 0$。 这意味着在缩短后的闭区间 $[0, a]$ 上:

$$ f_n \rightrightarrows 0 \quad (\text{一致收敛}) $$


这两个例子揭示了判定一致收敛的一种标准范式——$M$ 判别法思想

  1. 先求出逐点极限 $f(x)$。

  2. 计算偏差的模 $|f_n(x) - f(x)|$。

  3. 关键步骤:找到一个不依赖于 $x$的数列$M_n$,使得该偏差永远小于等于 $M_n$。

  4. 如果 $\lim_{n \to \infty} M_n = 0$,则一致收敛。

一致收敛的判别定理 (The Criterion Theorem)

判定一致收敛最常用的充分必要条件(通常被称为 $M$ 判别法思想):

  • 定理内容

    设 $f_n \to f$(逐点收敛)。若存在一个数列 ${a_n}$,满足:

    1. $\lim_{n \to \infty} a_n = 0$;

    2. 对一切 $x \in X$及一切$n \geq 1$,都有 $|f_n(x) - f(x)| \leq a_n$;

  • 结论:则函数序列 ${f_n}$在$X$上一致收敛于$f$ ($f_n \rightrightarrows f$)。

直观理解:如果能找到一个“盖子” $a_n$,它能把所有点的误差都盖住,且这个盖子本身会收缩到 $0$,那么收敛就是一致的。


非一致收敛的判定 (Negation Criterion)

证明一个级数不一致收敛的方法:

  • 判定准则

    若存在一个常数 $k > 0$,以及定义域中的一个特殊点列 ${x_n} \subset X$,使得:

$$ |f_n(x_n) - f(x_n)| \geq k $$

(或者该项的极限为 $k$),则 $f_n$在$X$ 上不一致收敛


1. 问题设定

$$ f_n(x) = \frac{nx}{1 + n^2x^2}, \quad x \in [0, 1] $$

2. 分析过程

  • 逐点极限

    • 若 $x=0$,$f_n(0)=0$。

    • 若 $x \in (0, 1]$,分母 $n^2$的阶数高于分子$n$,故当 $n \to \infty$ 时,$f_n(x) \to 0$。

    • 结论:极限函数 $f(x) \equiv 0$。

  • 构造点列(否定准则)

    为了证明不一致收敛,我们需要找到一个点 $x_n$,使得函数值在该点不趋于 $0$。

    令 $x_n = \frac{1}{n}$ (通过观察容易找到这个序列):

$$ |f_n(x_n) - f(x_n)| = |f_n(\frac{1}{n}) - 0| = \frac{n \cdot \frac{1}{n}}{1 + n^2 \cdot (\frac{1}{n})^2} = \frac{1}{1+1} = \frac{1}{2} $$

  • 结论:由于误差始终保持在 $1/2$,无法被任意小的 $\varepsilon$覆盖,故在$[0, 1]$ 上不一致收敛

例 :有界闭区间内的一致收敛

1. 问题设定

$$ f_n(x) = \frac{n + x^2}{nx}, \quad x \in (0, M] $$

2. 分析过程

  • 逐点极限:将式子拆分为 $f_n(x) = \frac{1}{x} + \frac{x}{n}$。当 $n \to \infty$ 时,$\frac{x}{n} \to 0$,故 $f_n(x) \to \frac{1}{x}$。

  • 寻找一致上界

$$ |f_n(x) - \frac{1}{x}| = |\frac{x}{n}| $$

在区间 $(0, M]$上,其最大偏差出现在$x=M$ 处:

$$ |\frac{x}{n}| \leq \frac{M}{n} = a_n $$

  • 结论:令 $a_n = \frac{M}{n}$,当 $n \to \infty$时$a_n \to 0$。因此在 $(0, M]$ 上一致收敛

例 3:无穷区间导致的收敛失败

1. 问题设定

$$ f_n(x) = (1 + \frac{1}{n})^x, \quad x \in [0, +\infty) $$

2. 分析过程

  • 逐点极限:对于固定的 $x$,当 $n \to \infty$时,依据重要极限可知$f_n(x) \to 1^x = 1$。

  • 寻找反例点列

    令 $x_n = n$:

$$ |f_n(n) - 1| = |(1 + \frac{1}{n})^n - 1| \longrightarrow e - 1 $$

  • 结论:由于 $e - 1 \approx 1.718 > 0$,误差在 $x$趋向无穷时无法消失。故在$[0, +\infty)$ 上不一致收敛

  • 对比:若将区间限制在有界的 $[0, M]$,则会变成一致收敛。

但是如果不知道极限,如何判定一致收敛呢?我们想到数项级数中的柯西判别法。

一致收敛的柯西准则

1. 定理内容

设函数序列 ${f_n}$定义在集合$X$上。${f_n}$在$X$上一致收敛(即存在函数$f$使得$f_n \rightrightarrows f$)的充分必要条件是:

对于任意给定的 $\varepsilon > 0$,都存在一个仅与 $\varepsilon$有关的自然数$N_{\varepsilon}$,使得对于所有 $n, m \geq N_{\varepsilon}$以及一切$x \in X$,都有:

$$ |f_n(x) - f_m(x)| < \varepsilon $$


2. 核心逻辑拆解

  • 内部一致性:柯西准则的本质是要求序列的项在 $n$ 足够大时,彼此之间靠得非常近。

  • 摆脱极限函数的依赖

    • 在之前的判别法中,我们通常需要先求出 $f(x) = \lim_{n \to \infty} f_n(x)$,然后去分析 $|f_n(x) - f(x)|$。

    • 柯西准则只需要比较序列内部的两项 $f_n$和$f_m$。这意味着即使极限函数极其复杂或者难以显式表达,我们依然可以讨论其一致收敛性。

  • “一致”的体现

    与数列柯西准则不同,这里的 $N_{\varepsilon}$对整个定义域$X$必须是通用的。无论你在$X$中选择哪一个$x$,只要下标超过 $N_{\varepsilon}$,两项之间的距离都必须小于 $\varepsilon$。

一致收敛到底有什么用呢?

核心定理:一致收敛与连续性 (Uniform Convergence and Continuity)

1. 定理内容

设函数序列 ${f_n}$定义在集合$X$ 上:

  • 条件 1:每一项 $f_n(x)$都是$X$上的连续函数(记作$f_n \in C(X)$);

  • 条件 2:${f_n}$在$X$上一致收敛于极限函数$f$(记作 $f_n \rightrightarrows f$);

  • 结论:极限函数 $f(x)$也是$X$上的连续函数(即$f \in C(X)$)。


2. 证明思路:$\varepsilon/3$ 技巧

为了证明 $f(x)$在$x_0$处连续,我们需要控制$|f(x) - f(x_0)|$ 的大小。

通过插入项,将其拆解为三部分:

$$ |f(x) - f(x_0)| \leq |f(x) - f_n(x)| + |f_n(x) - f_n(x_0)| + |f_n(x_0) - f(x_0)| $$

  1. 第一项 $|f(x) - f_n(x)|$:由一致收敛保证。只要 $n$足够大,对所有$x$这一项都小于$\varepsilon/3$。

  2. 第二项 $|f_n(x) - f_n(x_0)|$:由 $f_n$的连续性保证。固定$n$后,当$x$靠近$x_0$时,这一项小于$\varepsilon/3$。

  3. 第三项 $|f_n(x_0) - f(x_0)|$:同样由一致收敛保证(特定点 $x_0$ 处的收敛)。


回顾那个 $f_n(x) = x^n$在$[0, 1]$ 上的例子:

  • 每一项 $x^n$ 都是连续的。

  • 但极限函数 $f(x)$在$x=1$ 处不连续。

  • 原因:正是因为它在 $[0, 1]$ 上不满足一致收敛。这个反例从反面完美印证了本定理的必要性。

一致收敛保持可积性

1. 定理内容

设函数序列 ${f_n}$定义在有界闭区间$[a, b]$ 上:

  • 条件 1:每一项 $f_n(x)$都是$[a, b]$上的连续函数(即$f_n \in C[a, b]$);

  • 条件 2:${f_n}$在$[a, b]$上一致收敛于极限函数$f$(记作 $f_n \rightrightarrows f$);

  • 结论:极限函数与积分号可以交换顺序,即:

$$ \lim_{n \to \infty} \int_a^b f_n(x) dx = \int_a^b f(x) dx $$

直观隐喻:由于一致收敛保证了整个函数曲线是“均匀”地靠近极限函数的,因此曲线下方的面积也会“平滑”地趋近于极限函数下方的面积。


2. 证明过程整理

通过对误差的估计完成证明:

  • 误差表达式:我们需要证明 $\left| \int_a^b f_n(x) dx - \int_a^b f(x) dx \right| \to 0$。

  • 利用积分性质放大

$$ \left| \int_a^b (f_n(x) - f(x)) dx \right| \leq \int_a^b |f_n(x) - f(x)| dx $$

  • 利用一致收敛代换

    根据一致收敛的定义,对于任意 $\varepsilon > 0$,存在 $N_{\varepsilon}$,当 $n \geq N_{\varepsilon}$时,对所有$x \in [a, b]$都有$|f_n(x) - f(x)| < \varepsilon$。

  • 最终估计

$$ \int_a^b |f_n(x) - f(x)| dx \leq \int_a^b \varepsilon \cdot dx = \varepsilon (b - a) $$

当 $\varepsilon$趋于$0$时,上述误差项显然趋于$0$。

如果不一致收敛,就未必满足:

  • 一个“三角形尖峰”函数序列 $f_n(x)$,其高度为 $n$,底边宽度缩减为 $1/n$。

  • 现象

    • 逐点极限:对于任何固定的 $x > 0$,最终 $1/n < x$,函数值变为 $0$。故 $f_n \to 0$。

    • 积分结果:三角形面积 $\int_0^1 f_n(x) dx = \frac{1}{2}$(底 $\frac{1}{n}$ $\times$高$n$ $\times$ $\frac{1}{2}$)。

    • 极限冲突:$\lim_{n \to \infty} \int_0^1 f_n(x) dx = \frac{1}{2}$,但极限函数的积分 $\int_0^1 0 dx = 0$。

  • 结论:由于收敛不一致(尖峰一直在拔高),积分与极限号不可交换。

函数列的求导与一致收敛性

1. 定理陈述 (Theorem)

设 ${f_n}$是定义在区间$X = [a, b]$ 上的函数列,若满足以下条件:

  • 点点收敛:存在 $x_0 \in X$,使得 ${f_n(x_0)}$ 收敛。

  • 连续可导:$f_n \in C^1(X)$,即每个 $f_n$在$X$ 上有一阶连续导数。

  • 导函数一致收敛:存在函数 $g$,使得导函数序列 ${f’_n}$在$X$上一致收敛于$g$,即:

$$ f'_n \rightrightarrows g, \quad x \in X $$

则可以得出以下结论:

  1. 函数列 ${f_n}$在$X$上一致收敛于某个函数$f$(即 $f_n \rightrightarrows f$)。

  2. 极限函数 $f$在$X$ 上可导,且其导数等于导函数的极限,即:

$$ f' = g \quad \text{或者写成} \quad \left( \lim_{n \to \infty} f_n \right)' = \lim_{n \to \infty} f'_n $$


2. 证明思路推演 (Proof Sketch)

利用微积分基本定理进行估计:

通过基本公式:

$$ f_n(x) = f_n(a) + \int_a^x f'_n(t) \, dt $$

当 $n \to \infty$ 时,对应的项分别趋向于:

$$ f(x) = f(a) + \int_a^x g(t) \, dt $$

为了证明一致收敛,考察差值的绝对值:

$$ |f_n(x) - f_m(x)| \leq |f_n(a) - f_m(a)| + \int_a^x |f'_n(t) - f'_m(t)| \, dt $$

由于 $f_n(a)$收敛且$f’_n$一致收敛,由 Cauchy 收敛准则可知,上式右端可以控制得任意小,从而证明$f_n$的一致收敛性。那么对第二个式子求导,利用变上限积分的导数就得到$f’ = g$ 。


3. 性质延伸:交换性 (Interchangeability)

极限符号交换的核心思想:

  • 极限交换:$\lim_{n \to \infty} \lim_{x \to x_0} f_n(x) = \lim_{x \to x_0} \lim_{n \to \infty} f_n(x)$

  • 积分交换:$\lim_{n \to \infty} \int_a^b f_n(x) , dx = \int_a^b \left( \lim_{n \to \infty} f_n(x) \right) , dx$

  • 求导交换

$$ \lim_{n \to \infty} \frac{d}{dx} f_n(x) = \frac{d}{dx} \lim_{n \to \infty} f_n(x) $$

注意 (Caveat):求导的交换性比积分要求更苛刻。仅仅 $f_n \rightrightarrows f$是不足以推出$f’_n \to f’$ 的,必须要求 导函数序列本身一致收敛 ($f’_n \rightrightarrows g$) 才能保证等式成立。

整理 & 应用到函数项级数

一致收敛的判定

$$ f_n \rightrightarrows f \text{ 在 } X \text{ 上} $$

$$ \iff \forall \varepsilon > 0, \exists N_\varepsilon (\text{与 } x \text{ 无关}) $$

$$ \text{使 } |f_n(x) - f(x)| < \varepsilon, \quad \forall n \ge N_\varepsilon, \forall x \in X $$

$$ \iff \forall \varepsilon > 0, \exists N_\varepsilon $$

$$ \text{使 } |f_n(x) - f_m(x)| < \varepsilon, \quad \forall n, m \ge N_\varepsilon, \forall x \in X $$

$$ (\text{一致柯西}) $$


一致收敛的性质

① 连续性 (Continuity)

$$ f_n \rightrightarrows f, \text{ 且 } f_n \in C(X) \implies f \in C(X) $$

② 可积性 (Integrability)

$$ f_n \rightrightarrows f \text{ 在 } [a, b] \text{ 上} \implies \int_a^b f_n(x) dx \to \int_a^b f(x) dx $$

③ 可微性 (Differentiability)

$$ f_n \to f, \text{ 且 } f_n' \rightrightarrows g \implies f' = g, \text{ 且 } f_n \rightrightarrows f $$

应用到函数项级数

称 $\sum_{n=1}^{+\infty} u_n(x)$在$X$ 上一致收敛

$$ S_n(x) = \sum_{k=1}^{n} u_k(x) \rightrightarrows S(x) = \sum_{n=1}^{+\infty} u_n(x) $$

$$ \iff \forall \varepsilon > 0, \exists N_\varepsilon $$

$$ \text{使 } \left| \sum_{k=n+1}^{+\infty} u_k(x) \right| < \varepsilon, \quad \forall n \ge N_\varepsilon, \forall x \in X $$

$$ \iff \forall \varepsilon > 0, \exists N_\varepsilon $$

$$ \text{使 } \left| \sum_{k=n+1}^{n+p} u_k(x) \right| < \varepsilon, \quad \forall n \ge N_\varepsilon, p \ge 1, \forall x \in X $$


一致收敛的性质

① 连续性 (Continuity)

若 $S_n \rightrightarrows S$(在 $X$上),且每个$u_n \in C(X) \implies S_n \in C(X)

$$ $\implies S \in C(X) $$

这实际上意味着极限符号与求和符号可以交换:

$$ \lim_{x \to x_0} \sum_{k=1}^{\infty} u_k(x) = \sum_{k=1}^{\infty} \lim_{x \to x_0} u_k(x) $$

② 可积性 (Integrability) — 逐项积分

若 $S_n \rightrightarrows S$在$[a, b]$ 上,(通常称可积),那么首先利用积分的线性得到:

$$ \int_a^b \sum_{k=1}^nu_k(x)dx=\sum_{k=1}^n\int_a^bu_k(x)dx $$

利用上述的函数序列的一致收敛的可积性

$$ \int_a^b f_n(x) dx \to \int_a^b f(x) dx $$

就得到

$$ \int_a^b \sum_{n=1}^{+\infty} u_n(x) dx = \sum_{n=1}^{+\infty} \int_a^b u_n(x) dx $$

③ 可微性 (Differentiability) — 逐项求导

若 $S_n \to S$,且 $S_n’ = \sum_{k=1}^{n} u_k’(x) \rightrightarrows G(x)$ ,那么利用函数序列的可微性:

$$ \implies S_n \rightrightarrows S, \text{ 且 } S' = G(x) $$

$$ \implies \sum_{n=1}^{+\infty} u_n(x) \text{ 一致收敛,且 } \left( \sum_{n=1}^{+\infty} u_n(x) \right)' = \sum_{n=1}^{+\infty} u_n'(x) $$

直观地说,一致收敛允许我们交换极限、积分、导数。

狄利克雷判别法(一致版)

考察 $\sum_{n=1}^{+\infty} a_n(x)b_n(x)$在$X$ 上:

若:

① 对任意 $x \in X$,${a_n(x)}$关于$n$单调,且$a_n(x) \rightrightarrows 0$在$X$ 上;

② 存在 $M > 0$,使得 $\left| \sum_{k=1}^{n} b_k(x) \right| \le M, \quad \forall n, \forall x \in X$ (即部分和一致有界);

$$ \implies \sum a_n(x)b_n(x) \text{ 在 } X \text{ 上一致收敛} $$


阿贝尔判别法(一致版)

考察 $\sum_{n=1}^{+\infty} a_n(x)b_n(x)$在$X$ 上:

若:

① 对任意 $x \in X$,${a_n(x)}$关于$n$单调,且存在$L > 0$,使得 $|a_n(x)| \le L, \quad \forall n, \forall x$ (即序列一致有界);

② $\sum_{n=1}^{+\infty} b_n(x)$ 一致收敛

$$ \implies \sum a_n(x)b_n(x) \text{ 一致收敛} $$


  • 狄利克雷 (Dirichlet) 的逻辑: $b_n(x)$的能力比较弱,它的部分和只能做到不爆炸(一致有界),无法自主收敛。这时候就需要$a_n(x)$ 展现出极强的压制力(单调地一致趋于 0),硬生生把整个级数拉进收敛的怀抱。

  • 阿贝尔 (Abel) 的逻辑: $b_n(x)$本身已经足够优秀,自己就已经能做到一致收敛了。这时候对$a_n(x)$ 的要求就会放松,它不需要趋于 0,只需要在旁边安分守己,不要帮倒忙破坏稳定性即可(单调且一致有界)。

阅读全文

15.反常积分

2026/5/26

我们希望求解无穷级数:

$$ S(1) = \sum_{n=1}^{+\infty} \frac{1}{n^2} = ? $$

为了解决它,引入一个辅助幂级数(Power Series)函数 $S(x)$:

$$ S(x) = \sum_{n=1}^{+\infty} \frac{x^n}{n^2} $$

  • 收敛半径(Radius of convergence):$R = 1$

  • 收敛域(Domain of convergence):$[-1, 1]$在开区间$(-1, 1)$内,对$S(x)$ 进行逐项求导:

$$ S'(x) = \sum_{n=1}^{+\infty} \frac{n x^{n-1}}{n^2} = \sum_{n=1}^{+\infty} \frac{x^{n-1}}{n}, \quad x \in (-1, 1) $$

为了方便消除分母中的 $n$,给两边同乘以 $x$:

$$ x S'(x) = \sum_{n=1}^{+\infty} \frac{x^n}{n}, \quad x \in (-1, 1) $$

再次对两边关于 $x$ 求导:

$$ (x S'(x))' = \sum_{n=1}^{+\infty} \frac{n x^{n-1}}{n} = \sum_{n=1}^{+\infty} x^{n-1} $$

注意到右边是一个首项为 $1$、公比为 $x$的无穷几何级数(等比级数),在$|x| < 1$ 时收敛:

$$ \sum_{n=1}^{+\infty} x^{n-1} = \sum_{n=0}^{+\infty} x^n = \frac{1}{1-x} $$

由此得到闭式方程:

$$ (x S'(x))' = \frac{1}{1-x} $$

现在我们需要通过积分,从 $(x S’(x))’$一步步还原出$S(x)$。
对上式两边从 $0$到$x$ 进行定积分:

$$ x S'(x) = \int_{0}^{x} \frac{1}{1-t} \, dt $$

利用换元法(令 $u = 1-t, , du = -dt$)可得:

$$ x S'(x) = \Big[ -\ln(1-t) \Big]_{0}^{x} = -\ln(1-x), \quad x \in (-1, 1) $$

将 $x$ 除到右边:

$$ S'(x) = -\frac{1}{x} \ln(1-x) $$

再次从 $0$到$x$积分以还原函数$S(x)$:

$$ S(x) = \int_{0}^{x} -\frac{1}{t} \ln(1-t) \, dt $$

因为 $S(x)$在$x=1$处是连续的,所以可以通过从左侧逼近$1$(左极限)来求得 $S(1)$ 的值:

$$ \lim_{x \to 1^-} S(x) = \lim_{x \to 1^-} \int_{0}^{x} -\frac{1}{t} \ln(1-t) \, dt $$

$$ S(1) = \int_{0}^{1} -\frac{1}{t} \ln(1-t) \, dt $$

但是这个积分我们可以看到,在 $1$ 这个点的函数值是往无穷跑的,这和我们熟悉的黎曼积分就相悖了,被称为所谓广义积分。

广义积分

广义积分的分类

广义积分(又称反常积分)主要分为两大类:

  • 无穷积分(积分区域 $\infty$):积分区间为无穷区间(例如 $[a, +\infty)$、$(-\infty, b]$或$(-\infty, +\infty)$)。

  • 瑕积分(函数 $\infty$):积分区间虽然有限,但被积函数在区间内的某些点(瑕点)附近趋于无穷大。

积分与级数的类比关系

定积分/广义积分与数项级数之间的直观对应纽带:

$$ \begin{aligned} \int_{a}^{A} f(x) \, dx \quad &\longleftrightarrow \quad \sum_{n=1}^{N} a_n \\ \bigg\downarrow A \to +\infty, \ x \longleftrightarrow n \quad & \qquad\quad \bigg\downarrow N \to +\infty \\ \int_{a}^{+\infty} f(x) \, dx \quad &\longleftrightarrow \quad \sum_{n=1}^{+\infty} a_n \quad (S_n \to S) \end{aligned} $$

直观理解:有限区间的定积分对应级数的有限部分和 $S_n$;当上限趋于无穷时,无穷限广义积分在本质上就对应着无穷级数的求和与收敛性。

无穷积分

无穷限积分的严格定义

1. 前提条件

设函数 $f(x)$在区间$[a, +\infty)$上有定义,并且在任意有限区间$[a, A]$ 上都是可积的。

2. 收敛与定义

若极限

$$ \lim_{A \to +\infty} \int_{a}^{A} f(x) \, dx $$

存在(设其值为 $I$),则称广义积分 $\int_{a}^{+\infty} f(x) , dx$ 收敛

此时,定义该广义积分的值为这个极限值:

$$ \int_{a}^{+\infty} f(x) \, dx = I $$

3. 发散

若上述极限不存在,则称广义积分 $\int_{a}^{+\infty} f(x) , dx$ 发散

计算示例

示例 1

求广义积分 $\int_{1}^{+\infty} \frac{1}{x^2} , dx$ 的收敛性及值。

$$ \lim_{A \to +\infty} \int_{1}^{A} \frac{1}{x^2} \, dx = \lim_{A \to +\infty} \left. -\frac{1}{x} \right|_{1}^{A} = \lim_{A \to +\infty} \left( 1 - \frac{1}{A} \right) = 1 $$

结论:该广义积分收敛,其值为 $1$。

示例 2

求广义积分 $\int_{0}^{+\infty} e^{-x} , dx$ 的收敛性及值。

$$ \int_{0}^{A} e^{-x} \, dx = \left. -e^{-x} \right|_{0}^{A} = 1 - e^{-A} \xrightarrow{A \to +\infty} 1 $$

结论:该广义积分收敛,其值为 $1$。

$p$-广义积分的收敛性

讨论积分 $\int_{1}^{+\infty} \frac{1}{x^p} , dx \quad (p \in (0, +\infty))$ 的收敛性:

  1. 当 $p \in (0, 1]$ 时,该广义积分发散

  2. 当 $p > 1$ 时,该广义积分收敛

广义积分收敛的柯西准则(Cauchy Criterion)

定理(柯西准则)

广义积分 $\int_{a}^{+\infty} f(x) , dx$收敛的充要条件是:$\forall \varepsilon > 0$,$\exists X_{\varepsilon} \ge a$,使得对于任意的 $A_1, A_2 > X_{\varepsilon}$,均有:

$$ \left| \int_{A_1}^{A_2} f(x) \, dx \right| \le \varepsilon $$

级数类比:这完美对应了数项级数收敛的柯西准则 $\left| \sum_{k=n}^{m} a_k \right| < \varepsilon$。当区间足够远时,尾部的积分贡献可以忽略不计。

广义积分的性质与误区

1. 线性性质

若 $\int_{a}^{+\infty} f(x) , dx$收敛,且$\int_{a}^{+\infty} g(x) , dx$收敛,则对于任意常数$c_1, c_2$:

$$ \int_{a}^{+\infty} (c_1 f(x) + c_2 g(x)) \, dx \quad \text{亦收敛} $$

2. 关于“被积函数趋于 $0$”的直观误区

  • 疑问:若 $\int_{a}^{+\infty} f(x) , dx$收敛,当$x \to +\infty$ 时,$f(x)$是否必然趋于$0$?

  • 结论与图形直观不一定

    一个经典反例提示:我们可以构造一个函数,它在无穷远处有无数个越来越窄的“脉冲尖峰”(例如在每个整数 $n$处,尖峰高度为$1$,但宽度为 $\frac{1}{2^n}$)。

    此时,虽然当 $x \to +\infty$时$f(x) \not\to 0$(极限甚至不存在),但由于尖峰的面积(即积分贡献)呈几何级数衰减,整个广义积分 $\int_{a}^{+\infty} f(x) , dx$ 依然是收敛的。

审敛法

绝对收敛与条件收敛

类似于数项级数,变号函数的广义积分根据其绝对值的可积性分为以下两种情况:

  1. 绝对收敛(Absolute Convergence)

    若广义积分 $\int_{a}^{+\infty} |f(x)| , dx$收敛,则称广义积分$\int_{a}^{+\infty} f(x) , dx$ 绝对收敛

  2. 条件收敛(Conditional Convergence)

    若广义积分 $\int_{a}^{+\infty} f(x) , dx$收敛,但$\int_{a}^{+\infty} |f(x)| , dx$发散,则称广义积分$\int_{a}^{+\infty} f(x) , dx$ 为条件收敛

图形直观:正负面积相互抵消使得原积分可能收敛;但如果把负半轴全部翻折上去取绝对值,面积累加过快就可能导致发散,这就构成了条件收敛。

非负函数广义积分的有界性定理

对于始终非负的被积函数,其积分具有单调递增的特性,因而其收敛性与有界性完全等价。

定理

设 $f(x) \ge 0, \ x \in [a, +\infty)$。

则广义积分 $\int_{a}^{+\infty} f(x) , dx$收敛$\Longleftrightarrow$ $\exists M > 0$,使得:

$$ \int_{a}^{A} f(x) \, dx \le M, \quad \forall A \ge a $$

核心逻辑:非负函数的变上限积分 $F(A) = \int_{a}^{A} f(x) , dx$是关于$A$的单调递增函数。根据单调有界原理,只要它上有界,当$A \to +\infty$ 时极限就必然存在。

非负函数广义积分的比较判别法

类似数项级数,我们也有比较判别法:

设在 $x \to +\infty$ 时,两个非负函数满足:

$$ 0 \le f(x) \le g(x) $$

或者考虑它们的极限形式(极限审敛法):

$$ \lim_{x \to +\infty} \frac{f(x)}{g(x)} = k $$

  • 通过已知敛散性的基准函数 $g(x)$(通常为 $p$-积分 $\frac{1}{x^p}$),即可“放大”或“缩小”来锁定目标函数 $f(x)$ 的收敛状态。

比较判别法应用示例

示例 1

分析广义积分 $\int_{1}^{+\infty} \frac{x^2}{x^4 + \sin^2(x)} , dx$ 的收敛性。

由于 $\sin^2(x) \ge 0$,在区间 $[1, +\infty)$ 上显而易见有如下不等式关系:

$$ 0 \le \frac{x^2}{x^4 + \sin^2(x)} \le \frac{x^2}{x^4} = \frac{1}{x^2} $$

因为基准 $p$-积分 $\int_{1}^{+\infty} \frac{1}{x^2} , dx$收敛(此时$p = 2 > 1$),根据非负函数的比较判别法,原积分收敛

示例 2

分析广义积分 $\int_{0}^{+\infty} e^{-x^2} , dx$ 的收敛性。

我们可以将积分区间拆分为 $[0, 1]$和$[1, +\infty)$。由于被积函数在有限区间 $[0, 1]$上连续,该部分定积分必然存在,因此只需考察无穷限部分$\int_{1}^{+\infty} e^{-x^2} , dx$。

当 $x \ge 1$时,有$x^2 \ge x$,从而引出不等式:

$$ e^{-x^2} \le e^{-x} $$

因为 $\int_{1}^{+\infty} e^{-x} , dx$已知收敛,根据比较判别法,原积分$\int_{0}^{+\infty} e^{-x^2} , dx$ 亦收敛

(注:黑板上此处写出的 $\frac{\sqrt{\pi}}{2}$为该积分在$[0, +\infty)$ 上的精确高斯积分值)

阿贝尔判别法(Abel’s Test)

1. 经典引例

讨论变号函数积分 $\int_{1}^{+\infty} \frac{\sin(x)}{x^p} , dx$ 的收敛性:

  • 当 $p > 1$时:由于$\left| \frac{\sin(x)}{x^p} \right| \le \frac{1}{x^p}$,原积分绝对收敛

  • 当 $p \in (0, 1]$时:原积分条件收敛。为了系统性证明此类单调递减驱向$0$ 的函数与振荡函数乘积的收敛性,需要引入更高级的判别法。

2. 定理:阿贝尔判别法(Abel’s Test)

考察积分 $\int_{a}^{+\infty} f(x)g(x) , dx$,若满足以下两个条件:

  1. $f(x)$在$[a, +\infty)$ 上单调且有界

  2. 广义积分 $\int_{a}^{+\infty} g(x) , dx$ 收敛

则广义积分 $\int_{a}^{+\infty} f(x)g(x) , dx$ 收敛

三、 定理的数学证明与推导

有两种主流的微积分证明路径:

路径 A:利用积分第二中值定理(配合柯西准则)

根据广义积分收敛的柯西准则,我们需要证明当 $A_1, A_2$充分大时,保持$\left| \int_{A_1}^{A_2} f(x)g(x) , dx \right| \le \varepsilon$。

由于 $f(x)$在$[A_1, A_2]$ 上单调,由积分第二中值定理,$\exists \xi \in [A_1, A_2]$,使得:

$$ \left| \int_{A_1}^{A_2} f(x)g(x) \, dx \right| = \left| f(A_1) \int_{A_1}^{\xi} g(x) \, dx + f(A_2) \int_{\xi}^{A_2} g(x) \, dx \right| $$

  • 因为 $f(x)$有界,即$|f(x)| \le K$;

  • 因为 $\int_{a}^{+\infty} g(x) , dx$收敛,由柯西准则,当$A_1, A_2$足够大时,其子区间的积分$\int_{A_1}^{\xi} g(x) , dx$和$\int_{\xi}^{A_2} g(x) , dx$ 均可任意小。

    由此可证整个积分式趋近于 $0$,即满足收敛条件。

路径 B:利用分部积分法(进一步探讨可导情形)

假设 $f(x)$在区间上具有连续导数$f’(x)$,且不失一般性,设 $f(x) \downarrow f$且$f’(x) \le 0$。

设 $G(x) = \int_{a}^{x} g(t) , dt$。由于 $\int_{a}^{+\infty} g(x) , dx$收敛,可知$G(x)$在无穷远处极限存在且有界,即存在常数$M$使得$|G(x)| \le M$。

对原式进行分部积分

$$ \int_{a}^{A} f(x)g(x) \, dx = \left. f(x)G(x) \right|_{a}^{A} - \int_{a}^{A} f'(x)G(x) \, dx = f(A)G(A) - f(a)G(a) - \int_{a}^{A} f'(x)G(x) \, dx $$

现在对 $A \to +\infty$ 取极限,逐项分析:

  1. 第一项 $f(A)G(A)$:当 $A \to +\infty$ 时,$f(A)$ 极限存在(单调有界原理),$G(A)$ 极限存在,故该项极限必然存在。

  2. 最后一项积分项:考察其绝对值以验证是否绝对收敛:

$$ \int_{a}^{A} |f'(x)G(x)| \, dx \le M \int_{a}^{A} |f'(x)| \, dx $$

因为已知 $f’(x) \le 0$,所以 $|f’(x)| = -f’(x)$。带入积分可得:

$$ M \int_{a}^{A} -f'(x) \, dx = M \Big| \int_{a}^{A} f'(x) \, dx \Big| = M |f(a) - f(A)| = \tilde{M} $$

由于 $f(A)$在无穷远处有界,该积分项被一个常数$\tilde{M}$ 控制(上有界)。由于非负函数变上限积分上有界,该积分必然收敛。

总结:分部积分后的各项在 $A \to +\infty$ 时极限均存在,从而圆满证明了阿贝尔判别法的正确性。

利用阿贝尔判别法,就不难知道 $p$ 广义积分的收敛。

发散的示例

当 $p \in (0, 1]$ 时,广义积分的绝对值积分是发散的:

$$ \int_{1}^{+\infty} \frac{|\sin(x)|}{x^p} \, dx = +\infty $$

为了证明其发散,只需证明当上限 $A \to +\infty$ 时,变上限积分没有上界。

推导与放大步骤

1. 缩小区间

让上限 $A$取一个特定的离散值$N\pi$(其中 $N$为足够大的正整数),并将下限由$1$缩小到$\pi$(由于 $[1, \pi]$ 上的积分为有限常数,省去后不影响敛散性判断):

$$ \int_{1}^{A} \frac{|\sin(x)|}{x^p} \, dx \ge \int_{\pi}^{N\pi} \frac{|\sin(x)|}{x^p} \, dx $$

2. 区间拆分(离散化为级数)

利用定积分的区间可加性,将 $[\pi, N\pi]$拆分为$N-1$个长度为$\pi$的小区间$[k\pi, (k+1)\pi]$ 之和:

$$ = \sum_{k=1}^{N-1} \int_{k\pi}^{(k+1)\pi} \frac{|\sin(x)|}{x^p} \, dx $$

3. 分母放大(整体缩小)

在每一个子区间 $x \in [k\pi, (k+1)\pi]$上,由于$x^p$是单调递增的,为了将变量$x$从分母中提取出来,我们把分母替换为其在区间右端点的最大值$((k+1)\pi)^p$。

分母变大,整个分式变小,从而得到不等式:

$$ \ge \sum_{k=1}^{N-1} \frac{1}{((k+1)\pi)^p} \int_{k\pi}^{(k+1)\pi} |\sin(x)| \, dx $$

4. 计算正弦函数的周期面积

注意到正弦函数绝对值 $|\sin(x)|$在任意长度为$\pi$的半周期区间上的积分都是一个固定的常数$C$:

$$ C = \int_{k\pi}^{(k+1)\pi} |\sin(x)| \, dx = \int_{0}^{\pi} \sin(x) \, dx = \left. -\cos(x) \right|_{0}^{\pi} = 1 - (-1) = 2 $$

将 $C = 2$ 代入上式,并把常数项提出来:

$$ = \frac{2}{\pi^p} \sum_{k=1}^{N-1} \frac{1}{(k+1)^p} $$

  • 当 $p \in (0, 1]$时,根据$p$-级数的敛散性原理(或当 $p=1$时作为著名的调和级数),级数$\sum_{k=1}^{+\infty} \frac{1}{(k+1)^p}$是发散的,其和为$+\infty$。

  • 既然缩小的下界在 $N \to +\infty$ 时都趋于无穷大,根据夹逼准则(比较判别法),原绝对值积分必然发散。

最终结论:当 $p \in (0, 1]$时,广义积分$\int_{1}^{+\infty} \frac{\sin(x)}{x^p} , dx$ 不是绝对收敛的。结合此前阿贝尔判别法的结论,它在此区间内是条件收敛的。

全直线上广义积分

对于积分上下限皆为无穷的情形,其定义类似于单侧无穷限积分 $\int_{a}^{+\infty} f(x) , dx$和$\int_{-\infty}^{b} f(x) , dx$。

定义

广义积分 $\int_{-\infty}^{+\infty} f(x) , dx$ 收敛的充要条件($\Longleftrightarrow$)是:在实数轴上任意选择一个基准点(通常选 $0$),将其拆分为两部分,这两部分都必须独立收敛。即:

$$ \int_{-\infty}^{+\infty} f(x) \, dx \text{ 收敛} \Longleftrightarrow \int_{-\infty}^{0} f(x) \, dx \text{ 收敛} \quad \text{且} \quad \int_{0}^{+\infty} f(x) \, dx \text{ 收敛} $$

此时,定义该积分的值为两部分单独求极限后的和:

$$ \int_{-\infty}^{+\infty} f(x) \, dx = \int_{-\infty}^{0} f(x) \, dx + \int_{0}^{+\infty} f(x) \, dx $$

逻辑单向性与柯西主值(Cauchy Principal Value)

1. 单向蕴含关系

如果广义积分 $\int_{-\infty}^{+\infty} f(x) , dx$ 收敛,那么我们让对称的上下限同时趋于无穷大,其极限也必然存在:

$$ \lim_{A \to +\infty} \int_{-A}^{A} f(x) \, dx \quad \text{存在} $$

注意:反之不成立! 这种对称逼近的极限存在,并不能代表原广义积分收敛。

2. 柯西主值的定义

为了定义这种“对称取极限”的特殊积分状态,引入柯西主值的概念,记作 $\text{P.V.}$(Principal Value):

$$ \text{P.V.} \int_{-\infty}^{+\infty} f(x) \, dx = \lim_{A \to +\infty} \int_{-A}^{A} f(x) \, dx $$

经典反例与辨析

柯西主值存在 $\not\Rightarrow$ 广义积分收敛

考察函数

$$ f(x) = \frac{x}{1+x^2} $$

1. 严格定义视角

我们将其按定义拆分,优先考察右侧半轴的广义积分:

$$ \int_{0}^{+\infty} \frac{x}{1+x^2} \, dx = \lim_{A \to +\infty} \left. \frac{1}{2} \ln(1+x^2) \right|_{0}^{A} = \lim_{A \to +\infty} \frac{1}{2} \ln(1+A^2) = +\infty \quad (\text{发散}) $$

同理,左侧半轴的积分 $\int_{-\infty}^{0} \frac{x}{1+x^2} , dx = -\infty$ 亦发散。

结论:根据定义,原广义积分 $\int_{-\infty}^{+\infty} \frac{x}{1+x^2} , dx$ 发散

2. 柯西主值视角

由于该被积函数 $f(x) = \frac{x}{1+x^2}$是一个奇函数(满足$f(-x) = -f(x)$),对其在对称区间 $[-A, A]$ 上进行定积分:

$$ \int_{-A}^{A} \frac{x}{1+x^2} \, dx = 0 \quad (\text{奇函数在对称区间上的积分恒为 } 0) $$

此时对其取极限:

$$ \text{P.V.} \int_{-\infty}^{+\infty} \frac{x}{1+x^2} \, dx = \lim_{A \to +\infty} \int_{-A}^{A} \frac{x}{1+x^2} \, dx = \lim_{A \to +\infty} 0 = 0 $$

结论:该积分的柯西主值存在,且等于 $0$。

核心总结

广义积分收敛是一种极其严格的考核,要求负无穷和正无穷两端“各自为政、独立收敛”;而柯西主值 $\text{P.V.}$ 则允许两端的面积在同步对等(对称)扩大的过程中“相互抵消”。因此,不能将两者混为一谈。

瑕积分

一、 瑕积分与瑕点的严格定义

当积分区间为有限区间 $[a, b]$,但被积函数在区间端点无界时,需要引入瑕积分的概念。以下以左端点 $a$ 为瑕点为例:

1. 前提与定义

设函数 $f(x)$在半开区间$(a, b]$上有定义。若$f(x)$在点$a$的右邻域内无界,则称点$a$为$f(x)$ 的一个瑕点(Singular Point / Singular end)

2. 收敛与发散

若 $f(x)$在任意有限子区间$[a+\delta, b]$(其中 $0 < \delta < b-a$)上可积,且极限:

$$ \lim_{\delta \to 0^+} \int_{a+\delta}^{b} f(x) \, dx $$

存在,则称广义积分 $\int_{a}^{b} f(x) , dx$ 收敛

若上述极限不存在,则称该瑕积分发散

图形直观:在曲线下方,当 $x \to a^+$时,函数曲线垂直向上飙升趋于无穷。我们切掉靠近$a$的一小段$\delta$,计算 $[a+\delta, b]$的阴影面积,最后让$\delta \to 0^+$ 观察该面积是否能稳定收敛到一个常数。

二、 瑕积分与无穷限积分的转换(倒数换元)

瑕积分和无穷限积分在本质上可以相互过渡。

设 $a$为瑕点,对积分$\int_{a+\delta}^{b} f(x) , dx$ 作倒数换元:

令 $t = \frac{1}{x-a}$,则 $x = \frac{1}{t} + a$,从而 $dx = -\frac{1}{t^2} , dt$。

变换积分上下限:

  • 当 $x = b$ 时,$t = \frac{1}{b-a}$- 当$x = a+\delta$ 时,$t = \frac{1}{\delta}$

带入积分式中:

$$ \int_{a+\delta}^{b} f(x) \, dx = \int_{\frac{1}{\delta}}^{\frac{1}{b-a}} f\left(\frac{1}{t}+a\right) \left(-\frac{1}{t^2}\right) dt = \int_{\frac{1}{b-a}}^{\frac{1}{\delta}} f\left(\frac{1}{t}+a\right) \frac{1}{t^2} \, dt $$

当 $\delta \to 0^+$时,上限$\frac{1}{\delta} \to +\infty$。于是瑕积分成功转化为一个无穷限广义积分

$$ \int_{\frac{1}{b-a}}^{+\infty} f\left(\frac{1}{t}+a\right) \frac{1}{t^2} \, dt $$

三、 几何对称性与对偶性


函数 $y = \frac{1}{x}$(或类似反比例曲线)在第一象限的图像,并将其沿着对角线 $y=x$ 做区域划分:

  • 区域 $I_1$:代表横向向右延伸到正无穷的区域,对应无穷限积分

  • 区域 $I_2$:代表纵向向上延伸到正无穷的区域,对应瑕积分

图形直观地揭示了:从图形面积的几何互换(或反函数、坐标轴对调)视角来看,无穷限积分与瑕积分只是同一个几何实体在不同轴向上的投影,这也解释了为什么两者的分析工具和结论具有高度的对称性。

$q$-瑕积分的敛散性

黑板最右侧给出了瑕积分中最重要的基准判别式:分析积分 $\int_{0}^{1} \frac{1}{x^q} , dx \quad (q > 0)$的收敛性(此时$x=0$ 为瑕点)。

先求邻域定积分:

$$ \int_{\delta}^{1} \frac{1}{x^q} \, dx = \left. \frac{1}{1-q} x^{1-q} \right|_{\delta}^{1} = \frac{1}{1-q} (1 - \delta^{1-q}) $$

当 $\delta \to 0^+$ 时,分类讨论极限情况:

  1. 当 $q \in (0, 1)$ 时

    由于 $1-q > 0$,当 $\delta \to 0^+$ 时,$\delta^{1-q} \to 0$。

    极限存在,值为 $\frac{1}{1-q}$。因此该瑕积分收敛

  2. 当 $q > 1$ 时

    由于 $1-q < 0$,可写为 $\frac{1}{\delta^{q-1}}$。当 $\delta \to 0^+$ 时,$\delta^{1-q} \to +\infty$。

    极限为无穷大,因此该瑕积分发散

  3. 当 $q = 1$ 时(单独讨论)

$$ \int_{\delta}^{1} \frac{1}{x} \, dx = \left. \ln(x) \right|_{\delta}^{1} = \ln(1) - \ln(\delta) = -\ln(\delta) $$

当 $\delta \to 0^+$ 时,$-\ln(\delta) \to +\infty$。因此该瑕积分发散

💡 核心总结与对比(避坑指南)

对比此前无穷限 $p$-积分的结论,我们可以发现一个非常优美的“相反”镜像:

  • 无穷限积分 $\int_{1}^{+\infty} \frac{1}{x^p} , dx$:空间太大,需要幂次足够大 ($p>1$) 才能把函数压得足够低从而收敛。

  • 瑕积分 $\int_{0}^{1} \frac{1}{x^q} , dx$:高度太高,需要幂次足够小 ($q<1$) 才能控制住瑕点处的爆炸速度从而收敛。

瑕点的其它情形与严格定义

1. 右端点为瑕点

同理,若函数 $f(x)$在半开区间$[a, b)$上有定义,且右端点$b$为$f(x)$ 的瑕点。则可定义瑕积分为左极限:

$$ \int_{a}^{b} f(x) \, dx = \lim_{\delta \to 0^+} \int_{a}^{b-\delta} f(x) \, dx $$

2. 区间内部为瑕点

若瑕点 $c$位于积分区间$(a, b)$的内部(即$c \in (a, b)$为$f(x)$ 的瑕点),其收敛性定义要求两边独立收敛

$$ \int_{a}^{b} f(x) \, dx \text{ 收敛} \Longleftrightarrow \int_{a}^{c} f(x) \, dx \text{ 收敛} \quad \text{且} \quad \int_{c}^{b} f(x) \, dx \text{ 收敛} $$

按照极限的严格写法,两边需要使用独立的扰动量($\delta$和$\varepsilon$)分别逼近 $c$:

$$ \int_{a}^{b} f(x) \, dx = \lim_{\delta \to 0^+} \int_{a}^{c-\delta} f(x) \, dx + \lim_{\varepsilon \to 0^+} \int_{c+\varepsilon}^{b} f(x) \, dx $$

图形直观:在内部瑕点 $c$处,函数曲线两侧同时向正负无穷延伸(类似于$\frac{1}{x}$在$0$附近)。严格定义要求挖掉$[c-\delta, c+\varepsilon]$这一段,并在$\delta, \varepsilon$各自独立趋于$0$ 时两侧面积均存在极限。

瑕积分的柯西主值(Cauchy Principal Value)

如果强行令两侧逼近瑕点的速度完全对称(即令 $\delta = \varepsilon$),此时对应的极限被称为瑕积分的柯西主值,记作 $\text{P.V.}$:

$$ \text{P.V.} \int_{a}^{b} f(x) \, dx = \lim_{\delta \to 0^+} \left( \int_{a}^{c-\delta} f(x) \, dx + \int_{c+\delta}^{b} f(x) \, dx \right) $$

经典实例分析

考虑 $\int_{0}^{1} \frac{1}{x} , dx$ 。

1. 严格定义视角

将积分以 $0$ 为界拆分为两部分:

  • 右侧:$\int_{0}^{1} \frac{1}{x} , dx$发散(根据$q$-瑕积分定理,$q=1$ 发散);

  • 左侧:$\int_{-1}^{0} \frac{1}{x} , dx$ 亦发散。

由于两部分不能同时独立收敛,根据定义:

$$ \int_{-1}^{1} \frac{1}{x} \, dx \quad \mathbf{\text{发散}} $$

2. 柯西主值视角

采用对称的边界 $\delta$同时逼近瑕点$0$:

$$ \lim_{\delta \to 0^+} \left( \int_{-1}^{-\delta} \frac{1}{x} \, dx + \int_{\delta}^{1} \frac{1}{x} \, dx \right) $$

由于 $\frac{1}{x}$是奇函数,在对称挖空的区间$[-1, -s] \cup [s, 1]$上,正负面积完全抵消,积分值恒为$0$:

$$ \lim_{\delta \to 0^+} \left( \ln|-1| - \ln|-\delta| + \ln|1| - \ln|\delta| \right) = \lim_{\delta \to 0^+} (0 - \ln \delta + 0 + \ln \delta) = \lim_{\delta \to 0^+} 0 = 0 $$

由此得到:

$$ \text{P.V.} \int_{-1}^{1} \frac{1}{x} \, dx = 0 $$

阅读全文

13.级数 IV —— 幂级数与泰勒级数

2026/5/26

幂级数

研究幂级数的动机,实际上就是利用多项式去逼近一个点的函数值。
对于一般的函数级数:

$$ \sum u_n(x) $$

我们取最简单的幂级数,同时由于平移不应该影响敛散性,我们直接考虑最简单的样子:

$$ \sum_{n=0}^{+\infty} a_n (x - x_0)^n \longrightarrow \sum_{n=0}^{+\infty} a_n x^n $$


性质

收敛区间的连通性

对于特殊的函数级数,自然应该有特殊的性质。对于幂级数,有个有趣的事情:收敛区间是连通的:

定理 任给 $\sum a_n x^n$① 若$\exists , x_1 \in \mathbb{R} \setminus {0}$使$\sum a_n (x_1)^n$ 收敛,

则对于 $\forall , x \in (-|x_1|, |x_1|)$,

$\sum a_n x^n$ 绝对收敛。

② 若 $\exists , x_2 \in \mathbb{R}$使$\sum a_n (x_2)^n$ 发散,

则对于 $\forall , x \in (-\infty, -|x_2|) \cup (|x_2|, +\infty)$,

$\sum a_n x^n$ 发散。


① $\sum a_n (x_1)^n$收敛$\Longrightarrow { a_n (x_1)^n }$ 有界

对于任意 $x \in (-|x_1|, |x_1|)$,

$$ \sum |a_n x^n| = \sum |a_n x_1^n| \cdot \left| \frac{x}{x_1} \right|^n $$

利用狄利克雷判别法就知道收敛。

② 由 ① 反证,一个点发散,那么利用 ① ,它的外侧不会有点收敛。


推论:对 $\sum a_n x^n$ ,我们就可以考虑这样一个收敛区间

$$ A = \{ b \mid \sum a_n b^n \text{ 收敛} \} $$

取出上界

$$ R = \sup A $$

那么 $R$ 就把数轴分成了收敛和发散的两部分。

换句话说:
存在 $R \in [0, +\infty] \quad (R \text{ 可为 } +\infty)$使$\sum a_n x^n$在$(-R, R)$ 内绝对收敛

在 $(-\infty, -R) \cup (R, +\infty)$发散。$R$ 称为收敛半径


收敛与符号、幂次因子无关

(1) 性质一:收敛半径与各项系数绝对值的关系

  • 核心结论:收敛半径 $R$只与系数的绝对值$|a_n|$ 有关,与系数的符号无关。

  • 表达式:$\sum a_n x^n$与$\sum |a_n| x^n$ 的收敛半径一样

这利用上面已讨论的就可以得到。

(2) 性质二:引入幂次因子后收敛半径的不变性

  • 已知条件:设级数 $\sum_{n=0}^{\infty} a_n x^n$的收敛半径为$R$

  • 研究对象:引入因子 $n^m$(其中 $m \neq 0$为常数)后的新级数$\sum_{n=0}^{\infty} a_n \cdot n^m x^n$,其收敛半径记为 $\tilde{R}$。

  • 推导逻辑

    当 $m > 0$ 时:

    • 一方面可以证明 $\tilde{R} \le R$- 另一方面可以证明$\tilde{R} \ge R$

    • 综合上下界,最终得到结论:$\tilde{R} = R$

证明

  • 数轴示意

    在区间 $(-R, R)$内,任取一点$x$,并在 $x$与$R$之间插入一个介点$b$,满足:

$$ -R < x < b < R $$

  • 级数放缩与收敛性分析

    为了考察通项的绝对值 $\sum |a_n n^m x^n|$,将其进行恒等变形与拆分:

$$ \sum |a_n n^m x^n| = \sum \left( |a_n b^n| \right) \cdot n^m \left| \frac{x}{b} \right|^n $$

  • 分析判定

      1. 因为 $b < R$,落在原级数的收敛域内,所以数列 $|a_n b^n|$ 是有界(bounded)的。
          
      2. 因为 $|x/b| < 1$,新引入的几何级数部分 $\sum n^m \left| \frac{x}{b} \right|^n$ 是绝对收敛的。
          
    
    • 结论:相乘后的级数收敛

审敛法

达朗贝尔 / 柯西审敛法

  • 定理名称:柯西 / 达朗贝尔 test(Cauchy / d’Alembert test,即根值审敛法与比值审敛法)。

  • 研究对象:幂级数 $\sum_{n=0}^{\infty} a_n x^n$。

  • 判定条件

    • 比值形式:若 $\lim_{n \to +\infty} \left| \frac{a_{n+1}}{a_n} \right| = l$- 根值形式:或$\lim_{n \to +\infty} (|a_n|)^{\frac{1}{n}} = l$- 注:其中$l \in [0, +\infty]$。
  • 核心结论:则该幂级数的收敛半径 $R = \frac{1}{l}$

推导

通过考察通项的绝对值,将幂级数问题转化为常数项级数的审敛:

  • 令通项绝对值为:$u_n = |a_n x^n|$

  • 应用根值审敛法(Root Test)

$$ \lim_{n \to +\infty} (u_n)^{\frac{1}{n}} = \lim_{n \to +\infty} |a_n x^n|^\frac{1}{n} $$

$$ = \lim_{n \to +\infty} |a_n|^\frac{1}{n} \cdot |x| = l \cdot |x| $$

  • 敛散性分类讨论

    • 当 $l \cdot |x| < 1$ 时,级数绝对收敛。对此不等式移项变形,得到:

$$ |x| < \frac{1}{l} \implies \text{\textbf{收敛}} $$

  • 当 $l \cdot |x| > 1$ 时,得到:

$$ |x| > \frac{1}{l} \implies \text{\textbf{发散}} $$

  • 结论映射:根据收敛半径的定义(使得级数收敛的 $|x|$的上界),显然有$R = \frac{1}{l}$。

可以完全类似地证明比值判别。

四则运算

幂级数的加法

  • 前置条件:已知两个幂级数 $\sum a_n x^n$和$\sum b_n x^n$,其收敛半径分别为 $R_1$和$R_2$。

(1) 线性组合(和级数)的收敛半径 $R$

研究对象为新级数:$\sum (a_n + b_n) x^n$,探讨其收敛半径 $R$ 的取值情况:

  • 情况一:当 $R_1 \neq R_2$ 时

    收敛半径由短板决定:

$$ R = \min\{R_1, R_2\} $$

  • 情况二:当 $R_1 = R_2$ 时

    由于系数相加可能发生抵消(使得某些高次项系数变为 0 或显著变小),收敛半径可能会扩大:

$$ R \ge R_1 = R_2 $$

幂级数的乘法(柯西乘积 Cauchy Product)

(2) 乘积级数的定义与半径估计

  • 定义柯西乘积的系数 $c_n$

$$ c_n = \sum_{j=0}^{n} a_j b_{n-j} $$

  • 形式乘积表达式

$$ \left( \sum_{n=0}^{+\infty} c_n x^n \right) = \left( \sum_{n=0}^{+\infty} a_n x^n \right) \left( \sum_{n=0}^{+\infty} b_n x^n \right) $$

这里项的乘积表现为 $a_j x^j \cdot b_{n-j} x^{n-j} = a_j b_{n-j} x^n$。

  • 绝对值放缩与有界性分析

    为了考察新级数 $\sum c_n x^n$的收敛半径$R$,对部分和的绝对值进行放缩:

$$ \sum_{k=0}^{n} |c_k x^k| \le \left( \sum_{k=0}^{n} |a_k x^k| \right) \left( \sum_{k=0}^{n} |b_k x^k| \right) $$

从系数层面上看,显然有:

$$ |c_n| \le \sum_{j=0}^{n} |a_j| \cdot |b_{n-j}| $$

  • 核心结论

    通过上述放缩可以证明,只要 $x$同时落在两个原级数的绝对收敛域内,乘积级数就必然收敛。因此新级数的收敛半径$R$ 满足:

$$ \mathbf{R \ge \min\{R_1, R_2\}} $$

示例

1. 前置条件与对象定义

构造两个简单的级数进行相乘:

  • 级数一(几何级数)

$$ \sum_{n=0}^{\infty} x^n = 1 + x + x^2 + \dots = \frac{1}{1-x} $$

  • 其系数为 $a_n = 1$。

    • 收敛区间为 $(-1, 1)$,收敛半径 $R_1 = 1$
  • 级数二(多项式退化级数)

    直接取多项式 $1 - x$ 作为第二个级数。

    • 它的各项系数为:$b_0 = 1$,$b_1 = -1$,当 $n \ge 2$时$b_n = 0$。

    • 因为是有限项多项式,它在全复平面或全实数轴上都收敛,因此收敛半径 $R_2 = +\infty$

按照之前的定理,两个级数做柯西乘积,其收敛半径下界为 $\min{R_1, R_2} = \min{1, +\infty} = 1$。

2. 柯西乘积系数 $c_n$ 的计算过程

现在通过公式 $c_n = \sum_{j=0}^{n} a_j b_{n-j}$ 逐项计算乘积级数的系数:

  • 当 $n = 0$ 时

$$ c_0 = a_0 b_0 = 1 \cdot 1 = 1 $$

  • 当 $n = 1$ 时

$$ c_1 = a_0 b_1 + a_1 b_0 = 1 \cdot (-1) + 1 \cdot 1 = 0 $$

  • 当 $n \ge 2$ 时(一般项)

    由于当 $j \ge 2$时$b_j = 0$,求和项中只有最后两项非零:

$$ c_n = \sum_{j=0}^{n} a_{n-j} b_{j} = a_n b_0 + a_{n-1} b_1 $$

带入系数 $a_n=1, a_{n-1}=1$以及$b_0=1, b_1=-1$:

$$ c_n = 1 \cdot 1 + 1 \cdot (-1) = 0 $$

3. 核心结论

由于除了常数项 $c_0 = 1$之外,高次项的系数全部完美抵消为 0(即$c_1 = c_2 = \dots = c_n = 0$),所以:

  • 乘积级数的形式为

$$ \sum_{n=0}^{\infty} c_n x^n = 1 $$

  • 最终收敛半径

    因为常数 $1$函数对于任意$x$ 都恒成立(退化为了常数),所以新级数的收敛半径直接发生了“阶跃”:

$$ \mathbf{R = +\infty} $$

这个具体的例子完美支撑了公式里为什么是大于等于号($\ge$)而非恒等号——在特定的代数抵消下,级数内部的截断效应可以让收敛边界完全消失。

幂级数的除法与待定系数法

(3) 商级数的定义与前置条件

  • 重要前提:设分母级数的常数项 $b_0 \neq 0$

    • 注:这是为了确保在 $x=0$ 的邻域内分母不为零,从而使除法运算在数学上合法(Well-defined)。
  • 形式表达式

    设分子级数的收敛半径为 $R_1$,分母级数的收敛半径为 $R_2$。它们的商可以写成一个新的幂级数,记其收敛半径为 $R$:

$$ \frac{\sum_{n=0}^{\infty} a_n x^n}{\sum_{n=0}^{\infty} b_n x^n} = \sum_{n=0}^{\infty} d_n x^n $$

  • 求解方法待定系数法(Undetermined coefficients)。

    通过两边同乘分母,将其转化为我们熟知的柯西乘积形式:

$$ \sum_{n=0}^{\infty} a_n x^n = \left( \sum_{n=0}^{\infty} b_n x^n \right) \left( \sum_{n=0}^{\infty} d_n x^n \right) $$

  • 具体系数的递推关系(以 $a_1$ 为例)

    通过比较两边 $x^1$ 次项的系数,利用柯西乘积的展开规则,可以得到:

$$ \mathbf{a_1 = d_1 b_0 + d_0 b_1} $$

利用这类递推方程,在已知 $a_n$和$b_n$的情况下,就可以逐个解出待定系数$d_0, d_1, d_2 \dots$。

  • 劣势(风险):由于分母级数 $\sum b_n x^n$在复平面上可能存在零点(Zeros),新级数的收敛半径$R$不仅取决于$\min{R_1, R_2}$,还严重受限于分母级数离原点最近的那个零点的距离

  • 置信度评级(高):因此,通常只能保证 $R > 0$(在原点的一个足够小的邻域内解析),而无法像乘法那样简单地给出 $R \ge \min{R_1, R_2}$ 的宏观下界。

一致收敛的判断

当然,我们也需要研究一致收敛,以便利用其美妙的性质。

幂级数一致收敛定理

  • 前置条件:设级数 $\sum_{n=0}^{\infty} a_n x^n$的收敛半径为$R$。

  • 定理内容

    1. 内部闭区间的一致收敛性

      $\sum a_n x^n$在$[-b, b]$内一致收敛,其中对$\forall b \in (0, R)$ 均成立。

      (也就是说,只要在收敛区间内部往里缩进一点点,构成的任何对称闭区间都是一致收敛的“安全区”。)

    2. 右边界收敛的延伸(阿贝尔定理的分支)

      若 $\sum a_n x^n$在右端点$x = R$ 处也收敛,则它在闭区间 $[0, R]$一致收敛

    3. 左边界收敛的延伸

      若 $\sum a_n x^n$在左端点$x = -R$ 处也收敛,则它在闭区间 $[-R, 0]$一致收敛

(1) 证明

利用强数级数压制的逻辑,给出性质 (1) 的核心推导:

  • **数轴空间构造:

    在实轴上,选取点满足 $b < c < R$。这就保证了点 $c$依然严格处于收敛半径$R$的内部,因此级数在$c$ 点必然绝对收敛

  • 通项绝对值的放缩

    对于 $\forall x \in [-b, b]$,我们来考察通项的绝对值 $|a_n x^n|$。因为 $|x| \le b$,所以:

$$ |a_n x^n| \le |a_n b^n| $$

为了利用 $c$点的收敛性,进行恒等变形(乘以并除以$c^n$):

$$ |a_n b^n| = |a_n c^n| \cdot \left| \frac{b}{c} \right|^n $$

  • 优级数(M-series)的敛散性判定

    1. 因为 $c < R$,所以数列 $|a_n c^n|$是有界(bounded)的(记其上界为$M$)。

    2. 因为 $b < c$,所以公比 $\left| \frac{b}{c} \right| < 1$,从而几何级数 $\sum \left| \frac{b}{c} \right|^n$ 是收敛的。

    3. 综合两点,常数项级数 $\sum |a_n c^n| \cdot \left| \frac{b}{c} \right|^n$ 绝对收敛

  • 应用 Weierstrass M-test 落地结论

    由于我们找到了一个不依赖于 $x$ 的收敛常数项级数,作为原函数项级数通项的绝对上界:

$$ \implies \sum a_n x^n \text{ 在 } [-b, b] \text{ 上\textbf{一致收敛}}。 $$

(2)证明

  • 证明目标:对于 $x \in [0, R]$,证明 $\sum a_n x^n$ 一致收敛。

  • 项的拆分(构造阿贝尔形式)

    由于在 $R$处只有收敛而非绝对收敛,需要另寻他法。完全类似地将幂级数通过乘除$R^n$ 进行恒等变形,拆分为两部分的乘积:

$$ \sum a_n x^n = \sum \underline{a_n R^n} \cdot \underline{\left( \frac{x}{R} \right)^n} $$

分别令:

$$ \beta_n = a_n R^n \quad (\text{常数项部分}) $$

$$ \alpha_n(x) = \left( \frac{x}{R} \right)^n \quad (\text{函数项部分}) $$

  • 阿贝尔判别法条件验证

    1. 关于 $\alpha_n(x)$:当 $x \in [0, R]$时,单项式序列$\alpha_n(x) = \left( \frac{x}{R} \right)^n$ 满足:

      • 针对每个固定的 $x$,随 $n$的增加而关于$n$单调递减(因为商$\le 1$)。

      • 一致有界:由于 $0 \le \frac{x}{R} \le 1$,其绝对值满足 $|\alpha_n(x)| \le 1$,上界与 $x$ 无关。

    2. 关于 $\beta_n$:已知级数 $\sum \beta_n = \sum a_n R^n$ 在端点处收敛。既然它是常数项级数,收敛就等价于它在区间上一致收敛

  • 落地结论

    由阿贝尔判别法,条件全部满足,因此乘积形式的函数项级数 $\sum \alpha_n(x) \beta_n$在$[0, R]$ 上一致收敛

3同理可证

一致收敛性质的利用

  • 前置条件:设级数 $\sum_{n=0}^{\infty} a_n x^n$的收敛半径为$R$,其和函数记为 $S(x)$。取闭区间参数 $b \in (0, R)$。

(1) 和函数 $S(x)$ 的连续性 (Continuity)

  • 核心结论:$S(x)$在闭区间$[-b, b]$ 上连续

  • 边界延伸(阿贝尔定理的推论):若级数在右端点 $x = R$处收敛,则$S(x)$在$[-b, R]$ 上连续

$$ \text{若 } \sum a_n R^n \text{ 收敛} \implies S(x) \text{ 在 } [-b, R] \text{ 上连续} $$

(这意味着,只要级数在边界收敛,和函数在边界上就不仅有定义,而且能保持左连续。)

(2) 幂级数的逐项积分定理 (Term-by-term Integration)

由于级数在内部闭区间上是一致收敛的,极限算子(求和)与积分算子可以完美交换顺序:

  • 定义变上限积分函数 $F(x)$

$$ F(x) = \int_{0}^{x} S(t) \, \mathrm{d}t = \int_{0}^{x} \left( \sum_{n=0}^{\infty} a_n t^n \right) \mathrm{d}t $$

  • 性质陈述:对于 $\forall x \in [-b, b]$,上述级数可以逐项积分

$$ F(x) = \sum_{n=0}^{\infty} \int_{0}^{x} a_n t^n \, \mathrm{d}t $$

  • 积分落地结果

$$ \int_{0}^{x} S(t) \, \mathrm{d}t = \sum_{n=0}^{\infty} \frac{a_n}{n+1} x^{n+1} $$

  • 新级数的收敛半径

    利用乘上n的幂次不改变收敛半径,知道积分后得到的新幂级数,其收敛半径仍旧为 $R$,不过在边界的收敛性可能改变。一般来说越积分收敛性越好。

(3) 幂级数的逐项求导定理 (Term-by-term Differentiation)

由于级数在内部闭区间 $[-b, b]$(其中 $b \in (0, R)$)上一致收敛,且各项导数构成的级数也表现良好,极限算子(求和)与求导算子可以完美交换顺序:

  • 核心表达式:对于 $\forall x \in [-b, b]$,和函数 $S(x)$ 的导数可以直接对级数的每一项分别求导得到:

$$ S'(x) = \left( \sum_{n=0}^{+\infty} a_n x^n \right)' = \sum_{n=1}^{+\infty} a_n n x^{n-1} $$

  • 注:由于常数项 $a_0$求导后变为$0$,新级数的求和下界从 $n=0$变为了$n=1$。

  • 收敛半径的不变性

    求导后得到的新级数,其收敛半径仍旧为 $R$(正如性质 (2) 所证明的,引入 $n^m$ 因子不改变收敛半径)。

(4) 高阶逐项求导与无穷阶可导性

通过数学归纳法,这个逐项求导的操作可以无限次重复进行:

  • $k$阶导数表达式:对于$\forall x \in [-b, b]$,和函数的 $k$阶导数$S^{(k)}(x)$ 为:

$$ S^{(k)}(x) = \sum_{n=k}^{+\infty} a_n \cdot n(n-1)(n-2)\cdots(n-k+1) x^{n-k} $$

  • 注:求和下界对称地变为了 $n=k$。

  • 终极推论(光滑性)

    由于这个性质对任意满足 $b < R$的闭区间$[-b, b]$都成立,我们可以将局部的一致收敛性平滑过渡到整个开区间$(-R, R)$ 上:

$$ \implies S(x) \in C^{\infty}[-b, b] $$

$$ \implies \mathbf{S(x) \in C^{\infty}(-R, R)} $$

这意味着:任何幂级数在其收敛区间内部都代表了一个绝对完美的“光滑函数”(Smooth function),不仅连续,而且拥有任意阶的连续导数。

例题

1. 经典例题背景与收敛域判定

  • 研究对象:给定级数

$$ S(x) = \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n+1}}{2n+1} $$

  • 基本属性

    • 使用比值审敛法易知其收敛半径 $R = 1$

    • 边界敛散性

      • 当 $x = 1$时,级数为$\sum \frac{(-1)^n}{2n+1}$,由交错级数审敛法(Leibniz test)可知其收敛

      • 当 $x = -1$时,级数为$\sum \frac{(-1)^n (-1)^{2n+1}}{2n+1} = \sum \frac{(-1)^{3n+1}}{2n+1}$,同样交错收敛

    • 结论:该级数的收敛域为闭区间 $[-1, 1]$,而在开区间 $(-1, 1)$ 内绝对收敛。

2. 运用逐项求导(Term-by-term Differentiation)求和函数

为了解出 $S(x)$的解析表达式,在开区间$(-1, 1)$ 内对级数进行逐项求导:

$$ S'(x) = \sum_{n=0}^{+\infty} (-1)^n \frac{(2n+1)x^{2n}}{2n+1} = \sum_{n=0}^{+\infty} (-1)^n x^{2n} $$

  • 几何级数还原:将上式变形为以 $-x^2$ 为公比的等比级数:

$$ S'(x) = \sum_{n=0}^{+\infty} (-x^2)^n = \frac{1}{1 - (-x^2)} = \frac{1}{1 + x^2} $$

3. 积分回推与初值确定

通过对导函数 $S’(x)$求不定积分来还原$S(x)$:

$$ S(x) = \int \frac{1}{1+x^2} \,\mathrm{d}x = \arctan x + C $$

  • 确定常数 $C$:代入原级数的初始值。显然当 $x=0$时,每一项都为 0,即$S(0) = 0$。

  • 求解:$\arctan(0) + C = 0 \implies C = 0$。

  • 得到开区间内的和函数

$$ S(x) = \arctan x \quad \left(x \in (-1, 1)\right) $$

4. 边界延伸与莱布尼茨 $\pi$ 公式

这里展现了阿贝尔定理(Abel’s Theorem)的威力:因为原级数在端点 $x=1$处收敛,所以和函数$S(x)$在$x=1$处必然左连续。这意味着我们可以把$x=1$直接带入刚才得到的$\arctan x$ 中:

$$ S(1) = \arctan(1) = \frac{\pi}{4} $$

将 $x=1$ 代入原级数展开式,最终落地为数论与分析中大名鼎鼎的经典交错级数公式:

$$ \mathbf{\sum_{n=0}^{+\infty} \frac{(-1)^n}{2n+1} = 1 - \frac{1}{3} + \frac{1}{5} - \frac{1}{7} + \frac{1}{9} - \frac{1}{11} + \dots = \frac{\pi}{4}} $$

泰勒级数

研究幂级数,很大一部分就是为了泰勒级数。

从无限可导向解析的跨越

如果一个函数 $f(x)$在$x_0$附近满足$C^\infty$(即无穷阶连续可导),我们总可以基于泰勒公式形式化地构建一个无穷级数:

$$ T(x) = \sum_{n=0}^{+\infty} \frac{1}{n!} f^{(n)}(x_0)(x - x_0)^n $$

这个级数被称为泰勒级数(当 $x_0=0$时为麦克劳林级数)。由于泰勒级数本质上是幂级数,只要它在某个区间$x \in (-R, R)$ 内收敛,其系数就具有唯一性,由其逐阶导数完全决定:$a_n = \frac{1}{n!} T^{(n)}(0)$。

然而,微积分在这里留下了一个直觉的陷阱。通常情况下,即使泰勒级数在某个区间内完美收敛,它也不一定会收敛到原函数本身。 也就是说, $f(x) = T(x)$ 并非理所当然。要看清这背后的本质,我们需要将视界从孤立的实数轴拓宽到二维的复平面。

隐藏在虚轴上的“暗礁”:收敛半径的几何本质

考虑两个在实轴上表现完全不同的函数,它们的麦克劳林级数却展现出了对称的局限性:

1. 几何级数的自然边界

$$ \frac{1}{1-x} = \sum_{n=0}^{+\infty} x^n $$

该级数的收敛半径是 $R=1$。在实数域内,这个限制非常直观:当 $x=1$ 时,函数的分母为零,出现了解析构造上的“奇点”。

2. 反正切函数的神秘受限

$$ \arctan(x) = \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n+1}}{2n+1} $$

在实数轴上,$\arctan(x)$是一个无可挑剔的完美函数——它不仅处处连续,而且无穷阶可导,没有任何分母为零的断点。然而,它的泰勒级数收敛半径同样被死死限制在$R=1$。如果只看实数轴,这无疑是一个令人费解的谜题。

当我们引入复数 $z = x + iy$,将函数通过复对数形式进行解析延拓(analytic continuation)后,真相才浮出水面:

$$ \arctan(z) = \frac{i}{2} \ln \left( \frac{i-z}{i+z} \right) $$

在复平面上,复反正切函数在 $z = \pm i$ 处分母为零。复平面上的奇点限制了实数域的收敛半径。

在几何上,幂级数的收敛区域在复平面上表现为一个圆。这个圆的边界必定会触碰到离原点最近的那个“奇点”。这两个隐藏在虚轴上的奇点 $\pm i$到原点的距离恰好是 1,因此划定了一个半径为 1 的收敛圆。我们在实轴上看到的收敛区间$(-1, 1)$,不过是这个复平面收敛圆在实轴上的一段投影。

虚妄的温顺:病态函数的实复两面性

为了彻底划清“无穷阶可导”与“可解析”的界限,我们需要审视数学分析中著名的病态函数(pathological function):

$$ f_{\text{bad}}(x) = \begin{cases} e^{-\frac{1}{x^2}}, & x \neq 0 \\ 0, & x = 0 \end{cases} $$

这个函数在实轴上极为特殊。如果你在原点 $x=0$ 处对它求各阶导数,会发现由于指数爆炸级缩小的压制,它在原点处的任意一阶导数都精确地等于 0($f^{(n)}(0) = 0$)。这意味着,它的麦克劳林级数成了恒等于 0 的平庸级数:

$$ T(x) = 0 + 0\cdot x + 0\cdot x^2 + \dots \equiv 0 $$

这个级数显然在全实轴上收敛,但除了 $x=0$这一点外,它在任何地方都不等于原函数$e^{-1/x^2}$。

这种实轴上的“温顺”欺骗了我们。一旦将该函数延拓至复平面 $f_{\text{bad}}(z) = e^{-\frac{1}{z^2}}$,从不同的方向逼近原点,它会展现出截然相反的动态:

  • 沿实轴趋近($z = x$):

$$ \lim_{x \to 0} e^{-\frac{1}{x^2}} = 0 $$

函数值平滑地滑向零,各阶导数沉寂。

  • 沿虚轴趋近($z = iy$):

$$ f_{\text{bad}}(iy) = e^{-\frac{1}{(iy)^2}} = e^{\frac{1}{y^2}} $$

$$ \lim_{y \to 0} e^{\frac{1}{y^2}} = +\infty $$

随着 $y$ 逼近原点,函数值发生剧烈的指数级爆炸。

原点 $z=0$ 实际上是该函数在复平面上的本性奇点(essential singularity)。 它在实轴上的无限光滑,只是复平面上剧烈动荡向实轴投影后留下的一丝假象。这也最终解释了为什么它的泰勒级数永远无法真正代表它本身。一个实函数想要能够被泰勒级数完美局部逼近(即解析),它不仅要在实轴上光滑,更需要经受住复平面全方位逼近的考验。

泰勒公式的余项与级数收敛性判定

由于我们进一步细化,从幂级数跳到了泰勒级数,那么自然我们会有一些更好的性质,这里就是利用余项来判定级数的收敛性。

在研究函数的泰勒展开时,为了精确衡量有限阶泰勒多项式 $T_n(x)$与原函数$f(x)$ 之间的逼近误差,引入了余项(Remainder Term)的概念:

$$ R_n(x) \triangleq f(x) - T_n(x) $$

根据不同的应用场景(误差估计或收敛性证明),余项主要有两种经典的定量表达形式。

泰勒公式的两种经典余项形式

假设函数 $f(x)$在含$x_0$和$x$的区间内具有直到$n+1$ 阶的导数,则余项可以表示为:

1. 拉格朗日型余项(Lagrange Form)

$$ R_n(x) = \frac{f^{(n+1)}(x_0 + \theta(x - x_0))}{(n+1)!} (x - x_0)^{n+1} $$

其中 $\theta = \theta_{x, n} \in (0, 1)$。该形式可以看作是拉格朗日中值定理的高阶推广,非常适合用于函数值的误差上界估计。

2. 柯西型余项(Cauchy Form)

$$ R_n(x) = \frac{f^{(n+1)}(x_0 + \tilde{\theta}(x - x_0))}{n!} (1 - \tilde{\theta})^n (x - x_0)^{n+1} $$

其中 $\tilde{\theta} = \tilde{\theta}_{x, n} \in (0, 1)$。柯西余项在处理某些特殊函数(如 $\ln(1+x)$或$(1+x)^\alpha$ 在接近收敛边界时)的收敛性证明时更为有力。

实例分析:指数函数 $e^x$ 的级数收敛性证明

以 $x_0 = 0$(麦克劳林展开)为例,探讨指数函数 $e^x$ 的幂级数展开:

$$ e^x = \sum_{n=0}^{+\infty} \frac{1}{n!} x^n $$

利用比值判别知其收敛半径 $R = +\infty$。以下提供两种严格证明该级数在全实域 $\mathbb{R}$上等价于$e^x$ 的方法。

方法 1:余项估计法(利用拉格朗日余项)

要证明级数收敛于原函数,只需证明当 $n \to +\infty$ 时,余项的极限为 0。

令 $x_0 = 0$,由于 $f^{(n+1)}(x) = e^x$,其拉格朗日余项为:

$$ |R_n(x)| = \left| e^x - \sum_{k=0}^n \frac{1}{k!} x^k \right| = \left| \frac{e^{\theta x}}{(n+1)!} x^{n+1} \right| \quad (\theta \in (0, 1)) $$

对于任意固定的实数 $x$:

  • $e^{\theta x}$是一个有界常数(若$x>0$,则 $e^{\theta x} < e^x$;若 $x<0$,则 $e^{\theta x} < 1$)。

  • 根据阶乘的增长速度远快于幂函数这一性质,有 $\lim_{n \to +\infty} \frac{x^{n+1}}{(n+1)!} = 0$。

因此:

$$ \lim_{n \to +\infty} R_n(x) = 0 \quad (\forall x \in \mathbb{R}) $$

级数在整个实数集上收敛于 $e^x$。

方法 2:微分方程法(利用逐项求导)

我们可以直接从和函数出发,利用幂级数的分析性质进行反向证明。

设幂级数的和函数为 $S(x)$:

$$ S(x) = \sum_{n=0}^{+\infty} \frac{1}{n!} x^n \quad (\forall x \in \mathbb{R}) $$

由于幂级数在其收敛区间内可以逐项求导,对 $S(x)$ 求导得:

$$ S'(x) = \sum_{n=1}^{+\infty} \frac{1}{(n-1)!} x^{n-1} $$

令 $m = n-1$,平移求和指标后可得:

$$ S'(x) = \sum_{m=0}^{+\infty} \frac{1}{m!} x^m = S(x) $$

这构成了初值问题:

$$ \begin{cases} S'(x) = S(x) \\ S(0) = 1 \end{cases} $$

解该线性常微分方程可得:

$$ S(x) = C e^x $$

代入初值 $S(0) = 1$确定常数$C = 1$,故有:

$$ S(x) = e^x $$

总结: 无论是通过拉格朗日余项直接夹逼,还是通过逐项求导构造微分方程,都完美地证明了 $\sum_{n=0}^{+\infty} \frac{1}{n!} x^n$在实轴上不仅收敛,且其和函数精确等于$e^x$。

三角函数

在完备了幂级数的余项估计理论后,我们可以将其直接应用于最具周期对称美感的经典三角函数——正弦函数 $\sin(x)$与余弦函数$\cos(x)$。

一、 高阶导数的周期性规律

对三角函数进行泰勒展开的核心在于求解其任意阶导数。通过简单的微积分递推,可以发现它们的 $n$阶导数具有极具几何美感的统一形式(相当于在相位上不断推进$\frac{\pi}{2}$):

$$ \sin^{(n)}(x) = \sin\left(x + \frac{n}{2}\pi\right) $$

$$ \cos^{(n)}(x) = \cos\left(x + \frac{n}{2}\pi\right) $$

当选取展开中心 $x_0 = 0$(麦克劳林展开)时,由于 $\sin(0)=0$且$\cos(0)=1$,导数序列在 $0, 1, 0, -1$ 之间循环交替。这导致展开后的多项式呈现出奇偶项分离的特征。

二、 麦克劳林级数展开

将上述导数代入公式,可得正弦与余弦函数的经典幂级数展开式。这两个级数的收敛半径均为 $R = +\infty$:

1. 正弦函数(奇函数,仅保留奇数次幂)

$$ \sin(x) = \sum_{n=0}^{+\infty} \frac{(-1)^n}{(2n+1)!} x^{2n+1} = x - \frac{x^3}{3!} + \frac{x^5}{5!} - \dots $$

2. 余弦函数(偶函数,仅保留偶数次幂)

$$ \cos(x) = \sum_{n=0}^{+\infty} \frac{(-1)^n}{(2n)!} x^{2n} = 1 - \frac{x^2}{2!} + \frac{x^4}{4!} - \dots $$

三、 全实域收敛性证明(拉格朗日余项法)

为了严格说明这两个级数在整个实数域 $\mathbb{R}$上确实收敛于原函数,同样需要考察其拉格朗日余项$R_n(x)$。

以 $\sin(x)$为例,其 $n$ 阶泰勒公式的拉格朗日余项为:

$$ |R_n(x)| = \left| \frac{\sin^{(n+1)}(\theta x)}{(n+1)!} x^{n+1} \right| \quad (\theta \in (0,1)) $$

由于任何阶数的三角函数导数都受到正弦或余弦幅值的绝对控制,因此其导数部分天然有界:

$$ \left| \sin^{(n+1)}(\theta x) \right| \le 1 $$

由此可得误差分量的绝对控制不等式:

$$ |R_n(x)| \le \frac{|x|^{n+1}}{(n+1)!} $$

对于任意给定的实数 $x$,由于阶乘的增长速度在 $n \to +\infty$ 时居于绝对统治地位,级数的尾项必趋于 0:

$$ \lim_{n \to +\infty} R_n(x) = 0 \quad (\forall x \in \mathbb{R}) $$

同理可证 $\cos(x)$ 的余项同样全实域趋于 0。这说明两个级数在整个实轴上与原函数完全等价。

四、 终章:统一于欧拉公式

至此,我们手中已经握有了三个在全实域 $R=+\infty$ 完美收敛的麦克劳林级数:$e^x$、$\sin(x)$以及$\cos(x)$。如果我们再次跨越实数边界,将纯虚数 $ix$代入到指数函数$e^x$ 的级数展开中:

$$ e^{ix} = \sum_{n=0}^{+\infty} \frac{(ix)^n}{n!} = 1 + ix + \frac{(ix)^2}{2!} + \frac{(ix)^3}{3!} + \frac{(ix)^4}{4!} + \dots $$

利用虚数单位的幂次周期性($i^2 = -1, i^3 = -i, i^4 = 1$),将上式按照实部(不含 $i$的项)与虚部(含有$i$ 的项)进行重新拆分组合:

$$ e^{ix} = \left( 1 - \frac{x^2}{2!} + \frac{x^4}{4!} - \dots \right) + i \left( x - \frac{x^3}{3!} + \frac{x^5}{5!} - \dots \right) $$

这便在解析层面上严丝合缝地证明了被誉为“数学界最美公式”的欧拉公式(Euler’s Formula)

$$ e^{ix} = \cos(x) + i\sin(x) $$

二项级数

在完备了指数函数与三角函数的级数理论后,我们将目光投向另一个经典的函数族——二项式函数 $f(x) = (1+x)^\alpha$(其中 $\alpha \in \mathbb{R}$且$\alpha \neq 0$)。

当 $\alpha$ 不为正整数时,该函数无法通过二项式定理展开为有限项多项式。为了探讨其无穷级数的形式及其在实轴上的等价性,必须对其进行高阶求导并对余项进行极其精细的估计。

一、 二项级数的形式构建与收敛半径

1. 高阶导数与系数确定

对 $f(x) = (1+x)^\alpha$进行逐阶求导,其$n$ 阶导数呈现出明显的阶乘幂规律:

$$ f^{(n)}(x) = \alpha(\alpha-1)\dots(\alpha-n+1)(1+x)^{\alpha-n} $$

在展开中心 $x_0 = 0$ 处,各阶导数值为:

$$ f^{(n)}(0) = \alpha(\alpha-1)\dots(\alpha-n+1) $$

由此,我们可以形式化地构建其麦克劳林级数(即二项级数):

$$ (1+x)^\alpha \sim \sum_{n=0}^{+\infty} \frac{\alpha(\alpha-1)\dots(\alpha-n+1)}{n!} x^n $$

2. 收敛半径的判定

通过达朗贝尔(Ratio Test)比值判别法,考察相邻两项绝对值的比值极限:

$$ \lim_{n \to +\infty} \left| \frac{a_{n+1} x^{n+1}}{a_n x^n} \right| = \lim_{n \to +\infty} \left| \frac{\alpha-n}{n+1} \right| |x| = |x| $$

若要级数绝对收敛,需满足 $|x| < 1$。因此,二项级数的收敛半径 $R = 1$。这说明该级数在开区间 $x \in (-1, 1)$ 内是完备收敛的。

二、 拉格朗日余项的局限:负区间的失效

为了证明级数在 $x \in (-1, 1)$内严格等价于原函数,我们需要证明其泰勒余项$\lim_{n \to +\infty} R_n(x) = 0$。

如果采用常规的拉格朗日型余项,公式形式如下:

$$ R_n(x) = \frac{\alpha(\alpha-1)\dots(\alpha-n)}{(n+1)!} (1+\theta x)^{\alpha-n-1} x^{n+1} \quad (\theta \in (0, 1)) $$

将变量项进行归类分离:

$$ R_n(x) = \frac{\alpha(\alpha-1)\dots(\alpha-n)}{(n+1)!} x^{n+1} \cdot (1+\theta x)^{\alpha-1} \cdot \underline{(1+\theta x)^{-n}} $$

此时对区间进行分情况讨论,会发现拉格朗日余项遇到了本质阻碍:

  • 当 $x \in (0, 1)$时:$1+\theta x > 1$,则 $(1+\theta x)^{-n} < 1$,余项可以顺利被阶乘压制趋于 0。

  • 当 $x \in (-1, 0)$时: 此时$0 < 1+\theta x < 1$。这意味着底数小于 1,当 $n \to +\infty$时,负幂次项$(1+\theta x)^{-n}$会变成一个剧烈增长的放大因子。由于$\theta$ 的不确定性,拉格朗日余项在负区间内无法直接证明收敛于 0。

三、 柯西余项的巧妙破局

为了克服拉格朗日余项在负区间估计上的失效,必须引入对基准点权重处理更为细腻的柯西型余项

柯西余项的标准形式为:

$$ R_n(x) = \frac{\alpha(\alpha-1)\dots(\alpha-n)}{n!} (1+\theta x)^{\alpha-n-1} (1-\theta)^n x^{n+1} \quad (\theta \in (0, 1)) $$

1. 核心代数变形

为了看清各项的控制关系,将柯西余项重组为三个独立因子的乘积结构:

$$ R_n(x) = \left[ \frac{\alpha(\alpha-1)\dots(\alpha-n)}{n!} x^{n+1} \right] \cdot (1+\theta x)^{\alpha-1} \cdot \left[ \frac{1-\theta}{1+\theta x} \right]^n $$

2. 三大因子的收敛行为分析

针对上面拆解出的三个部分,当 $n \to +\infty$且固定$x \in (-1, 1)$ 时,分别进行精细估计:

  • 因子一(级数通项关联项):$A_n = \frac{\alpha(\alpha-1)\dots(\alpha-n)}{n!} x^{n+1}$

    这一部分本质上是二项级数的第 $n+1$项。既然我们已经通过比值判别法证明了级数$\sum a_n x^n$在$|x|<1$ 时收敛,根据级数收敛的必要条件,其通项必趋于 0。因此:

$$ \lim_{n \to +\infty} A_n = 0 $$

  • 因子二(有界项):$B = (1+\theta x)^{\alpha-1}$

    由于 $x \in (-1, 1)$且$\theta \in (0, 1)$,不管 $\alpha-1$的符号如何,连续函数$(1+\theta x)^{\alpha-1}$在闭区间上总能被两端点卡住,针对确定的$x$ 是一个绝对有界的量,不会走向无穷。

  • 因子三(关键收缩项):$C_n = \left[ \frac{1-\theta}{1+\theta x} \right]^n$

    我们需要评估底数 $\frac{1-\theta}{1+\theta x}$与 1 的大小关系。在整体区间$x \in (-1, 1)$ 内:

$$ (1+\theta x) - (1-\theta) = \theta x + \theta = \theta(1+x) > 0 $$

由此可得:

$$ 1+\theta x > 1-\theta \implies 0 < \frac{1-\theta}{1+\theta x} < 1 $$

既然底数被死死限制在 $(0, 1)$之间,那么它的$n$ 次幂在无穷处必然是有界的(甚至严格递减趋于 0):

$$ \left| \frac{1-\theta}{1+\theta x} \right|^n < 1 $$

3. 最终夹逼结论

综合以上三项的评估结果,整个柯西余项被拆解为了:

$$ \lim_{n \to +\infty} R_n(x) = (\text{趋于 } 0) \times (\text{有界项}) \times (\text{小于 } 1 \text{ 的无穷幂次项}) = 0 $$

通过柯西余项的巧妙重新组合,彻底化解了负区间内 $(1+\theta x)^{-n}$膨胀带来的数学危机。至此,我们完成了二项级数在整个开区间$x \in (-1, 1)$ 内收敛于原函数的严格证明:

$$ (1+x)^\alpha = \sum_{n=0}^{+\infty} \frac{\alpha(\alpha-1)\dots(\alpha-n+1)}{n!} x^n \quad (\forall x \in (-1, 1)) $$

左侧边界:$x = -1$将$x = -1$强行代入级数,通项呈现为$u_n = \frac{\alpha(\alpha-1)\dots(\alpha-n+1)}{n!} (-1)^n$。

粗看之下,符号的介入似乎让事情变得复杂,但只要将视线拉长到无穷远处(当 $n > \alpha$时),你会发现相邻两项的比值$\frac{u_{n+1}}{u_n} = \frac{n-\alpha}{n+1}$ 悄然恒为正数。这意味着,在远离原点的旷野上,它其实蜕变为了一个同号级数

面对这种看似温和却缺乏相消机制的同号项累加,我们需要请出拉贝判别法(Raabe’s Test)——一种专门用来在比值失效时、通过放大高阶小项来定量级数衰减速度的精细工具。我们去捕捉它的极限行为:

$$ n \left( \frac{u_n}{u_{n+1}} - 1 \right) = n \left( \frac{n+1}{n-\alpha} - 1 \right) = \frac{n(1+\alpha)}{n-\alpha} \xrightarrow{n \to +\infty} 1 + \alpha $$

拉贝判别法的标尺非常客观:当极限值大于 1 时级数收敛,小于 1 时则无情发散。

  • 当 $1+\alpha > 1$,即 $\alpha > 0$ 时,衰减速度足够快,级数收敛

  • 当 $1+\alpha < 1$,即 $\alpha < 0$ 时,累加的势头压过了衰减,级数发散

(注:$\alpha = 0$ 时函数退化为常数 1,级数自然平凡收敛,一般不作为病态情况讨论。)

右侧边界:$x = 1$当目光转向右侧的$x = 1$时,通项变成了$u_n = \frac{\alpha(\alpha-1)\dots(\alpha-n+1)}{n!}$。

与左边恰恰相反,当 $n$ 足够大时,$\frac{u_{n+1}}{u_n} = \frac{\alpha-n}{n+1} < 0$。这里的正负号开始像钟摆一样规律地跳动,级数变成了一个标准的长程交错级数(alternating series)

交错级数往往拥有一层由“正负相消”赋予的宽容庇护。即使绝对值累加会走向无穷,只要正负交替的浪潮交织得足够均匀,它们就能在动态中达成一种和解:

  • $\alpha > 0$:由先前的拉贝判别法可知,此时它连绝对值之和都能收敛,在此处自然稳稳收敛

  • $-1 < \alpha \le 0$:绝对值的盾牌虽然碎了,但交错相消的剑刃还在。借助莱布尼茨判别法的微调审视,项的大小依然单调趋于 0,使得级数能够维持一种脆弱的平衡,表现为条件收敛(conditional convergence)——即级数本身靠着正负抵消活着,但一旦剥离符号取绝对值就会崩溃。

  • $\alpha \le -1$:此时跨越了危险的阈值,通项在趋近无穷时连“向零靠拢”的基本底线都无法维持,正负震荡的幅度越来越大,级数彻底发散

二项级数变体

在建立起二项级数的完备理论之后,我们可以利用逐项求导、逐项积分以及变量代换等解析性质,将许多复杂的初等函数转化为优雅的幂级数形式。

一、 利用二项级数展开复合成反式:$\frac{1}{\sqrt{1-x^2}}$为了求出广义代数分式$f(x) = (1-x^2)^{-\frac{1}{2}}$的级数形式,我们首先引入二项级数中$\alpha = -\frac{1}{2}$ 的特例。

1. 核心系数的基准推导

对于基础形式 $(1-x)^{-\frac{1}{2}}$,其麦克劳林级数的第 $n$ 项系数为:

$$ a_n = \frac{(-\frac{1}{2})(-\frac{3}{2})\dots(-\frac{1}{2}-n+1)}{n!} (-1)^n $$

提取每一项的分母 $2$ 以及负号,分子转化为连续奇数的乘积:

$$ a_n = \frac{(-1)^n \cdot 1 \cdot 3 \cdot 5 \dots (2n-1)}{2^n \cdot n!} (-1)^n = \frac{(2n-1)!!}{2^n \cdot n!} $$

由于 $2^n \cdot n! = 2 \cdot 4 \cdot 6 \dots (2n) = (2n)!!$,系数可以精简为双阶乘(Double Factorial)之比:

$$ a_n = \frac{(2n-1)!!}{(2n)!!} $$

由此得到基础展开式:

$$ (1-x)^{-\frac{1}{2}} = 1+\sum_{n=1}^{+\infty} \frac{(2n-1)!!}{(2n)!!} x^n $$

2. 变量代换完成目标

将上述公式中的 $x$整体替换为$x^2$,即可直接写出目标函数的展开式:

$$ \frac{1}{\sqrt{1-x^2}} =1+ \sum_{n=1}^{+\infty} \frac{(2n-1)!!}{(2n)!!} x^{2n} \quad (\forall x \in (-1, 1)) $$

二、 逐项积分的应用:反正弦函数 $\arcsin(x)$

反正弦函数可以通过导函数积分的形式表达:$\arcsin(x) = \int_0^x \frac{1}{\sqrt{1-t^2}} dt$。由于幂级数在收敛区间内部允许逐项积分,我们可以直接对上一节的结果进行定积分操作。

1. 级数形式的导出

$$ \arcsin(x) = \int_0^x \left( \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!} t^{2n} \right) dt = \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!} \int_0^x t^{2n} dt $$

计算积分项,得到反三角函数的标准级数展开:

$$ \arcsin(x) = \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!(2n+1)} x^{2n+1} $$

2. 边界收敛性

对于收敛区间 $(-1, 1)$内部,逐项积分的有效性毋庸置疑。然而在端点$x = \pm 1$ 处,该级数的表现表现出了更强的收敛倾向。

通过斯特林公式(Stirling’s Approximation)或拉贝判别法评估其通项系数的渐进性质:

$$ \frac{(2n-1)!!}{(2n)!!} \sim \frac{1}{\sqrt{\pi n}} $$

$$ \text{通项大小 } u_n \sim \frac{1}{\sqrt{\pi n} \cdot (2n+1)} \sim O\left(\frac{1}{n^{3/2}}\right) $$

因为 $p = \frac{3}{2} > 1$,根据 $p$-级数判别法,该级数在端点处不仅收敛,而且表现为绝对收敛。因此,反正弦函数的生存疆域完美闭合于全闭区间:

$$ x \in [-1, 1] $$

对数函数的组合:$\frac{1}{2}\ln\left(\frac{1+x}{1-x}\right)$

利用对数函数的代数性质,可以将商结构拆解为两个经典麦克劳林级数的差:

$$ \frac{1}{2}\ln\left(\frac{1+x}{1-x}\right) = \frac{1}{2}\big(\ln(1+x) - \ln(1-x)\big) $$

1. 级数对消过程

分别写出两者的级数展开:

$$ \ln(1+x) = x - \frac{x^2}{2} + \frac{x^3}{3} - \frac{x^4}{4} + \dots = \sum_{n=1}^{+\infty} (-1)^{n-1} \frac{x^n}{n} $$

$$ \ln(1-x) = -x - \frac{x^2}{2} - \frac{x^3}{3} - \frac{x^4}{4} - \dots = -\sum_{n=1}^{+\infty} \frac{x^n}{n} $$

当两者相减时,所有偶数次幂项因符号相同而完全抵消,所有奇数次幂项因符号相反负负得正而完成翻倍:

$$ \ln(1+x) - \ln(1-x) = 2x + \frac{2x^3}{3} + \frac{2x^5}{5} + \dots = 2 \sum_{n=0}^{+\infty} \frac{x^{2n+1}}{2n+1} $$

2. 最终和函数形式

乘以系数 $\frac{1}{2}$ 消除常数倍,得到无偶数项的纯奇次幂级数:

$$ \frac{1}{2}\ln\left(\frac{1+x}{1-x}\right) = \sum_{n=0}^{+\infty} \frac{x^{2n+1}}{2n+1} \quad (\forall x \in (-1, 1)) $$

对数与反正切的内在统一

在实数分析的框架内,上述的对数级数与反正切函数 $\arctan(x) = \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n+1}}{2n+1}$ 看起来只是结构相似的两个独立公式。然而,一旦引入复数元素,它们将展现出完美的统一性。

如果在对数展开式中进行纯虚数代换 $x \to ix$,则级数变为:

$$ \sum_{n=0}^{+\infty} \frac{(ix)^{2n+1}}{2n+1} = \sum_{n=0}^{+\infty} i^{2n+1} \frac{x^{2n+1}}{2n+1} = i \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n+1}}{2n+1} = i \arctan(x) $$

结合对数函数的解析延拓,两者的函数形态在复数域内达成了如下的逻辑闭环:

$$ \frac{1}{2}\ln\left(\frac{1+ix}{1-ix}\right) = i \arctan(x) \implies \arctan(x) = \frac{1}{2i}\ln\left(\frac{1+ix}{1-ix}\right) = \frac{i}{2}\ln\left(\frac{i+x}{i-x}\right) $$

这一关系不仅从代数上解释了为什么 $\arctan(x)$的收敛半径会被限制在$R=1$,更揭示了实数域上的对数增长反三角旋转,在虚轴的魔镜里,不过是同一个解析结构的双面投影。

分式

在掌握了基本初等函数的麦克劳林展开式后,面对非中心点展开或复合分式结构时,直接求导通常会导致组合数爆炸。此时,平移变换部分分式拆解的组合拳,是间接写出泰勒展开式最高效的代数技巧。

一、 核心问题与平移中心

我们要解决的具体例题是将有理分式 $f(x) = \frac{1}{(x-1)(x+3)}$在指定点$x_0 = 2$ 处进行泰勒展开。

为了能够利用现成的麦克劳林级数(以 0 为中心的展开式),首先需要进行平移变换,将展开中心强行拉回原点:

$$ \text{令 } t = x - 2 \implies x = t + 2 $$

将 $x = t + 2$代入原函数中,使其转化为关于新变量$t$在$t_0 = 0$ 处的麦克劳林展开问题:

$$ g(t) = \frac{1}{(t+2-1)(t+2+3)} = \frac{1}{(t+1)(t+5)} $$

二、 部分分式的代数拆解

分母中的乘积项 $(t+1)(t+5)$ 阻碍了我们直接对应标准级数。利用待定系数法将其拆解为两个独立线性分式的线性组合(部分分式法):

$$ \frac{1}{(t+1)(t+5)} = \frac{A}{t+1} + \frac{B}{t+5} $$

解得 $A = \frac{1}{4}$,$B = -\frac{1}{4}$。因此,函数被成功解耦:

$$ g(t) = \frac{1}{4} \left( \frac{1}{t+1} - \frac{1}{t+5} \right) $$

三、 经典几何级数映射与逐项展开

解耦后的两项均可完美隐射到标准的几何级数 $\frac{1}{1+u} = \sum_{n=0}^{+\infty} (-1)^n u^n$ 上,但两者的收敛边界存在内在差异:

1. 第一项直接展开

$$ \frac{1}{1+t} = \sum_{n=0}^{+\infty} (-1)^n t^n $$

  • 收敛域限制:该级数要求模长 $|t| < 1$。
2. 第二项提公因式后展开

$$ \frac{1}{t+5} = \frac{1}{5} \cdot \frac{1}{1 + \frac{t}{5}} = \frac{1}{5} \sum_{n=0}^{+\infty} (-1)^n \left(\frac{t}{5}\right)^n = \sum_{n=0}^{+\infty} \frac{(-1)^n}{5^{n+1}} t^n $$

  • 收敛域限制:该级数要求模长 $|\frac{t}{5}| < 1 \implies |t| < 5$。

四、 通项合并与收敛域的“短板效应”

将上述两个独立级数带回原式并合并同类项,提取出统一的幂次 $t^n$:

$$ g(t) = \frac{1}{4} \left( \sum_{n=0}^{+\infty} (-1)^n t^n - \sum_{n=0}^{+\infty} \frac{(-1)^n}{5^{n+1}} t^n \right) = \frac{1}{4} \sum_{n=0}^{+\infty} (-1)^n \left( 1 - \left(\frac{1}{5}\right)^{n+1} \right) t^n $$

将 $t = x - 2$重新代回,得到最终关于$(x-2)$ 的泰勒级数标准形式:

$$ f(x) = \frac{1}{4} \sum_{n=0}^{+\infty} (-1)^n \left( 1 - \left(\frac{1}{5}\right)^{n+1} \right) (x-2)^n $$

收敛域的最终判定

整体级数能够安全收敛的区域,取决于两个子级数收敛域的交集(即受限于较窄的那个“短板”):

$$ |t| < 1 \;\cap\; |t| < 5 \implies |t| < 1 $$

因此,该级数的收敛半径 $R = 1$,其关于新变量的收敛区间为 $t \in (-1, 1)$。还原到原变量 $x$,收敛区间即为:

$$ x - 2 \in (-1, 1) \implies x \in (1, 3) $$

五、 进阶视点:收敛半径的复分析几何本质

结合此前所引入的复数域视点 $f(z) \to T(z)$,我们可以完全脱离繁琐的代数不等式,从几何上降维打击、一眼看穿收敛半径为何必然是 $R = 1$。

  • 奇点的空间分布:函数 $f(z) = \frac{1}{(z-1)(z+3)}$ 在复平面上拥有两个阻碍其解析的“天然陷阱”(即分母为 0 的孤立极点):$z_1 = 1$和$z_2 = -3$。

  • 收敛圆的扩张极限:我们在 $z_0 = 2$ 处放置圆规的中心开始作解析展开。根据柯西的复变函数理论,泰勒级数的收敛圆会从中心出发不断向外等向扩张,直到触碰到最近的那个奇点时宣告破裂。

  • 距离的直观度量

$$ \text{中心 } z_0 = 2 \text{ 到最近奇点 } z_1 = 1 \text{ 的距离为:} |2 - 1| = 1 $$

$$ \text{中心 } z_0 = 2 \text{ 到较远奇点 } z_2 = -3 \text{ 的距离为:} |2 - (-3)| = 5 $$

这两种长短距离,严丝合缝地对应了我们在代数拆解中得到的 $|t| < 1$和$|t| < 5$。复平面上这一实一虚的几何拉锯,就是实数轴上级数收敛“短板效应”的真正幕后主宰。

π的估计

经典级数在特定切片下的完整展开

当我们将目光投向麦克劳林展开与 $\arcsin$幂级数时,为了在收敛速度与计算可行性之间取得平衡,通常会放弃直接带入边界值$x=1$,转而退守到更小的特征点:

① 麦克劳林级数(莱布尼茨型)的延伸

该级数在边界 $x=1$处的表现人尽皆知,但若将其推向更具实用价值的特征点$x = \frac{1}{\sqrt{3}}$(对应 $\arctan\frac{1}{\sqrt{3}} = \frac{\pi}{6}$):

$$ \frac{\pi}{6} = \sum_{n=0}^{+\infty} \frac{(-1)^n}{2n+1} \left(\frac{1}{\sqrt{3}}\right)^{2n+1} = \frac{1}{\sqrt{3}} \left( 1 - \frac{1}{3 \times 3} + \frac{1}{5 \times 9} - \frac{1}{7 \times 27} + \dots \right) $$

此时,原本致命的慢收敛被注入了几何因子 $\left(\frac{1}{3}\right)^n$,使其具备了实际计算的价值。

② $\arcsin$ 幂级数的双位切片

  • 直接带入边界 $x=1$(对应 $\arcsin(1) = \frac{\pi}{2}$):

$$ \frac{\pi}{2} = \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!} \frac{1}{2n+1} = 1 + \frac{1}{2 \times 3} + \frac{3}{8 \times 5} + \frac{5}{16 \times 7} + \dots $$

由于缺少几何因子的加持,此项的收敛性极为脆弱。

  • 退守至内部特征点 $x = \frac{1}{2}$(对应 $\arcsin\frac{1}{2} = \frac{\pi}{6}$):

$$ \frac{\pi}{6} = \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!} \frac{1}{2n+1} \left(\frac{1}{2}\right)^{2n+1} = \frac{1}{2} \left( 1 + \frac{1}{6 \times 4} + \frac{3}{40 \times 16} + \dots \right) $$

这里通过引入 $\left(\frac{1}{4}\right)^n$ 级别的衰减因子,强行挽救了算法的实用度。

通过积分得到新形式

面对 $\arctan(x)$在$|x|>1$ 时遭遇的收敛困境,传统的泰勒级数往往无能为力。如果换一种视角,从积分定义的本质出发,通过巧妙的几何级数构造与华里士积分(Wallis Integral)的桥接,可以赋予它一个在全实数域内绝对收敛的优美级数形式

思维的起点依旧是那条最朴素的路径:

$$ \arctan(x) = \int_0^x \frac{1}{1+t^2} dt $$

为了打破积分上限的束缚,做第一次线性换元,令 $t = xu$,将积分区间成功压缩到固定的 $[0, 1]$ 之间:

$$ \arctan(x) = x \int_0^1 \frac{1}{1+x^2 u^2} du $$

接下来是一步极其精妙的蜕变:引入三角换元 $u = \cos\theta$,将区间拉伸至广阔的 $[0, \frac{\pi}{2}]$。伴随着分母中 $\cos^2\theta = 1 - \sin^2\theta$ 的恒等变换,积分式转化为:

$$ \arctan(x) = x \int_0^{\frac{\pi}{2}} \frac{\sin\theta}{(1+x^2) - x^2 \sin^2\theta} d\theta $$

此时,若强行从分母中提取出 $(1+x^2)$,就能在内部人工制造出一个完美的几何级数(Geometric Series)内核:

$$ \arctan(x) = \frac{x}{1+x^2} \int_0^{\frac{\pi}{2}} \frac{\sin\theta}{1 - \frac{x^2}{1+x^2} \sin^2\theta} d\theta $$

注意到对于任意实数 $x$,比值 $\frac{x^2}{1+x^2}$总是严格小于$1$的(在积分开区间内$\sin^2\theta < 1$),这意味着我们在全实数域 $\mathbb{R}$ 上获得了展开为无穷级数的绝对安全权。将其展开并交换求和与积分号,核心部分被转化为求解经典的华里士积分:

$$ \arctan(x) = \frac{x}{1+x^2} \sum_{n=0}^{+\infty} \left(\frac{x^2}{1+x^2}\right)^n \left( \int_0^{\frac{\pi}{2}} \sin^{2n+1}\theta d\theta \right) $$

代入华里士积分的结果 $\frac{(2n)!!}{(2n+1)!!}$,便诞生了那个超越了传统收敛半径限制的全域收敛级数公式

$$ \mathbf{\arctan(x) = \frac{x}{1+x^2} \sum_{n=0}^{+\infty} \frac{(2n)!!}{(2n+1)!!} \left(\frac{x^2}{1+x^2}\right)^n \quad (\forall x \in \mathbb{R})} $$

这个新工具最直接的映射就是对 $\pi$的逼近。只需轻轻将特殊的截面$x = 1$嵌进公式,由于$\arctan(1) = \frac{\pi}{4}$,便能提炼出一条收敛极具效率的 $\pi$ 计算路径

$$ \mathbf{\frac{\pi}{4} = \frac{1}{2} \sum_{n=0}^{+\infty} \frac{(2n)!!}{(2n+1)!!} \left(\frac{1}{2}\right)^n} $$

为了更清晰地审视这一结论在整个分析学坐标系中的位置,不妨将其与另外两种经典的 $\pi$ 求值底稿进行横向对照。不同的级数构造,背后折射出的是对收敛速度与代数结构的权衡:

级数原型 展开形式与收敛条件 计算 π 的具体切片(以 x=1 或特殊值点为例) 收敛效能评估(逻辑依据与置信度评级)
全域收敛新级数 $\arctan(x) = \frac{x}{1+x^2} \sum_{n=0}^{+\infty} \frac{(2n)!!}{(2n+1)!!} \left(\frac{x^2}{1+x^2}\right)^n$



条件:$x \in \mathbb{R}$
$\frac{\pi}{4} = \frac{1}{2} \sum_{n=0}^{+\infty} \frac{(2n)!!}{(2n+1)!!} \left(\frac{1}{2}\right)^n$ 后项与前项比值趋于$\frac{1}{2}$,具备强烈的几何级数(等比级数)收敛特性,速度极快且无边界发散风险。
麦克劳林级数



(莱布尼茨型)
$\arctan(x) = \sum_{n=0}^{+\infty} (-1)^n \frac{x^{2n+1}}{2n+1}$



条件:$x \in (-1, 1)$
x
$\arcsin$幂级数 $\arcsin(x) = \sum_{n=0}^{+\infty} \frac{(2n-1)!!}{(2n)!!} \frac{x^{2n+1}}{2n+1}$



条件:$x \in (-1, 1)$
x

纵观这些公式的演变,从莱布尼茨级数那令人绝望的交错慢收敛,到利用积分变换强行注入的几何收敛因子($\frac{1}{2}$ 的幂次),数学在处理无穷时展现出的那种“以空间换速度”的精巧,往往就隐藏在最开始那步看似多余的换元之中。

阅读全文

14.级数 V —— 傅里叶级数

2026/5/26

幂级数作为一种拟合,还是有些不当之处,随着 $x$增长,高幂次的项数增长很快,于是需要一个很大的系数去压制,能不能找一个更好的基底拟合,而非$x$ 的幂次呢?

动机我们难以理解,毕竟我们不是傅里叶。但是我们可以找这样一组基 $e^{ikx}$,或者等价地写作$\sin{kx},\cos{kx}$。我们会发现这组基有相当好的性质,考虑积分从$-\frac{\pi}{2}$到$\frac{\pi}{2}$ 构成的一个内积空间,那么这组基是正交的。这意味着我们可以通过

$$ f(x)=\sum a_ke^{ikx} $$

直接积分,就得到对应的系数。详细地:

从幂级数过渡到傅里叶级数,其本质是从“用代数多项式逼近一切函数”转向“用具有周期性的三角多项式逼近一切函数”。这一过程伴随着空间基底的转换,也揭示了现代数学中“正交分解”的深刻动机。

泰勒级数(幂级数)的局限与动机

对于一些难以直接求出原函数的积分,例如 $\int_{0}^{1} e^{x^2} dx$,我们无法通过初等函数给表达式。为了解决这一困境,最自然的动机就是将复杂的非多项式函数转化为我们最熟悉的“无限项多项式”进行积。

利用已知的泰勒展开公式:

$$ e^t = \sum_{n=0}^{+\infty} \frac{t^n}{n!} $$

令 $t = x^2$,我们可以将该积项展开为幂级数:

$$ \int_{0}^{1} e^{x^2} dx = \int_{0}^{1} \sum_{n=0}^{+\infty} \frac{(x^2)^n}{n!} dx $$

这种做法在本质上是在假定一个函数 $f(x)$属于由单项式作为基底所张成的空间。在$x_0 = 0$ 处展开时,其形式为:

$$ f(x) \in \text{span}\{1, x, x^2, x^3, \dots, x^n, \dots\} $$

$$ f(x) = \sum_{n=0}^{+\infty} \frac{f^{(n)}(0)}{n!} x^n = S(x), \quad x \in (-R, +R) $$

局限性分析(置信度评级:高):

  1. 收敛域的严格限制:泰勒级数仅在收敛半径 $x \in (-R, +R)$ 内有效。一旦超出这个范围,级数就会发散,无法表现全局性质。

  2. 非周期性高次爆炸:由于单项式基底 $x^n$在$x \to \infty$时会趋于无穷(如图$x^n$ 的发散曲线),它极其不适合用来描述具有周期性、波动性或者局部剧烈震荡的信号。

从代数基底向一般函数基底的泛化

为了摆脱幂级数的空间限制,我们需要抽象出更一般的基底表达。假设存在某一组更广泛的函数基底 ${\varphi_0(x), \varphi_1(x), \varphi_2(x), \dots, \varphi_n(x), \dots}$,使得:

$$ f(x) \in \text{span}\{\varphi_0(x), \varphi_1(x), \varphi_2(x), \dots, \varphi_n(x), \dots\} $$

针对特定物理和数学场景——比如一个以 $T$为周期的函数$f(x)$(满足 $f(x+T) = f(x)$),或者一个在局部呈现密集波动的复杂信号:

普通的幂级数在面对这类具有周期性边界、或包含复杂局部纹理的函数时,拟合效率极低。我们迫切需要一种天然具备周期性(如在 $[0, T]$、$[0, 2T]$ 循环往复)且在整体边界内有界的基底。

傅里叶级数(三角级数)的构造

既然目标是逼近周期信号与波动函数,最完美的基底选择自然是简谐振动(三角函数)。我们构建一组由常数、正弦函数和余弦函数组成的完备正交基:

$$ \{1, \sin(x), \cos(x), \sin(2x), \cos(2x), \dots, \sin(nx), \cos(nx), \dots\} $$

那么,任意函数 $f(x)$ 都可以看作是该基底空间中的一个“向量”:

$$ \forall f(x) \in \text{span}\{1, \sin(x), \cos(x), \sin(2x), \cos(2x), \dots, \sin(nx), \cos(nx), \dots\} $$

核心问题提出:

对于任意给定的函数 $f(x)$,是否必然存在唯一的一组系数 ${a_0, a_1, a_2, \dots, a_n, \dots}$和${b_1, b_2, \dots, b_n, \dots}$,使得函数可以被分解为:

$$ f(x) = \frac{a_0}{2} + \sum_{n=1}^{+\infty} (a_n \cos(nx) + b_n \sin(nx)) $$

且该公式成立的自变量定义域 $x \in ?$ 究竟能扩展到多大?

通过这种基底的转换,我们成功将复杂的时域信号分解为了不同频率的谐波组合。正如在线性代数中利用对偶基提取系数一样,三角函数的“正交性”(即不同频率的三角函数在周期内的积分乘积为零)将作为后续提取这组系数 ${a_n, b_n}$ 的强力工具。

从傅里叶级数的系数确定,到利用其求解偏微分方程(如热传导方程),再到从几何视角理解函数逼近的“距离”概念,这一阶段完成了从“纯函数分解”向“空间几何与动力学应用”的跃升。

物理背景:非齐次热传导方程的引入

为了展现傅里叶级数解题的强大威力,我们引入一个经典的物理模型:一根两端固定的均匀细杆的温度变化控制

假设杆的长度为 $\pi$,考虑其温度分布函数 $u(x, t)$,其满足如下带有外加热源的非齐次热传导方程:

$$ u_t = u_{x2} + f(x) $$

  • $u_t$(左端项):温度随时间的变化率(热量随时间的累积)。

  • $u_{xx}$(右端第一项):热传导项,代表由于空间温度不均匀引起的扩散。

  • $f(x)$(右端第二项):外加热源项,它不随时间变化,仅与位置 $x$ 有关。

核心动机:面对这样一个偏微分方程(PDE),直接求解极其困难。由于三角函数基底具有求导后形式不变(仅改变系数)的优良性质,我们自然的动机是将未知解 $u(x,t)$和已知源项$f(x)$ 统一在空间域上进行傅里叶级数展开,从而将“偏微分方程”降维解耦为“常微分方程”。

谱方法求解:偏微分方程的代数化

我们将 $u(x, t)$看作空间基底上的组合,其系数是时间的函数;同时将外加热源$f(x)$ 也做三角展开:

$$ \begin{aligned} u(x, t) &= \frac{a_0(t)}{2} + \sum_{n=1}^{+\infty} \left[ a_n(t) \cos(nx) + b_n(t) \sin(nx) \right] \\ f(x) &= \frac{\alpha_0}{2} + \sum_{n=1}^{+\infty} \left[ \alpha_n \cos(nx) + \beta_n \sin(nx) \right] \end{aligned} $$

1. 算子作用(求导)

利用傅里叶级数逐项求导的性质,分别计算控制方程的左、右两端:

  • 对时间求导

$$ u_t = \frac{a_0'(t)}{2} + \sum_{n=1}^{+\infty} \left[ a_n'(t) \cos(nx) + b_n'(t) \sin(nx) \right] $$

  • 对空间求二次导

$$ u_{xx} = 0 + \sum_{n=1}^{+\infty} \left[ -n^2 a_n(t) \cos(nx) - n^2 b_n(t) \sin(nx) \right] $$

2. 代入方程与系数匹配

将上述展开式代入原物理方程 $u_t = u_{xx} + f(x)$,利用三角函数基底的线性独立性,我们可以让每一个谐波分量的系数分别对应相等。由此,偏微分方程成功转化为无限个独立的常微分方程(ODE)组

$$ \begin{aligned} a_n'(t) &= -n^2 a_n(t) + \alpha_n \implies a_n(t) = \dots \\ b_n'(t) &= -n^2 b_n(t) + \beta_n \implies b_n(t) = \dots \end{aligned} $$

通过求解这组一阶常微分方程,再结合初始条件,即可彻底锁定制得的未知解 $u(x,t)$。

几何视角:函数空间中的逼近与距离

当我们在实际计算中无法取无限项时,只能截取前 $N$项的有限和$S_N(x)$来逼近原函数$f(x)$。那么,如何度量这种“逼近的优劣”?这促使我们建立函数空间的几何学,即定义“距离”(范数)。

这里存在两种不同的“度量误差”的哲学:

1. 一致范数($L^\infty$ 范数)—— 绝对极致的误差

$$ \max |f(x) - S_N(x)| \iff \|\vec{a} - \vec{b}\|_\infty $$

  • 动机:关注的是“最坏的情况”。它要求在定义域的每一个点上,逼近函数与原函数的最大偏差都必须尽可能小。如图中两条曲线在最宽处的垂直距离。

2. 均方范数($L^2$ 范数)—— 整体能量的误差

$$ \int_{0}^{\pi} (f(x) - S_N(x))^2 dx \iff \|\vec{a} - \vec{b}\|_2 $$

  • 动机:关注的是“整体的拟合能量”。它允许个别点存在相对明显的偏差(例如在间断点处的吉布斯现象),但要求整个区间上的总误差平方和(面积)达到最小。

结论:傅里叶级数在 $L^2$均方范数下具有完美的最佳逼近性。从几何上看,截断的傅里叶级数$S_N(x)$恰好是原函数$f(x)$ 在低频有限维子空间上的正交投影。这一几何本质,构成了近代泛函分析与现代信号处理的理论基石。

有了前面对“几何度量”与“三角基底”的宏观直觉,这一阶段的核心任务是严格建立函数空间的内积架构。通过引入内积,函数空间被赋予了几何结构,进而能像处理有限维欧几里得空间一样,利用“正交性”去精确提取傅里叶级数的每一个系数。

构造平方可积函数空间 $V$

为了让“整体能量误差”的度量在数学上是合法的,我们首先必须定义一个严谨的函数空间。这个空间不能包含那些会发散到无穷大的恶性函数。

我们定义空间 $V$为在$[-\pi, \pi]$区间上的平方可积函数空间(即$L^2$ 空间的雏形):

$$ V = \left\{ f(x) : [-\pi, \pi] \to \mathbb{R} \;\middle|\; \int_{-\pi}^{\pi} |f(x)|^2 dx < +\infty \right\} $$

要让 $V$ 构成一个合格的线性向量空间,它必须对加法和数乘封闭。我们通过基本性质进行验证:

  1. 包含零元:恒等于 $0$的函数显然属于$V$。

  2. 数乘封闭性:若 $f \in V$,对于任意实数 $\lambda \in \mathbb{R}$,有 $\lambda f \in V$。

  3. 加法封闭性:若 $f, g \in V$,则其和 $f+g \in V$。

    动机与数学支撑:为什么两个平方可积函数的和仍是平方可积的?我们可以通过简单的代数不等式与柯西-施瓦茨不等式来加以保证:

$$ \int_{-\pi}^{\pi} |f+g|^2 dx = \int_{-\pi}^{\pi} (f^2 + g^2 + 2fg) dx \le \int_{-\pi}^{\pi} f^2 dx + \int_{-\pi}^{\pi} g^2 dx + 2\sqrt{\int_{-\pi}^{\pi} f^2 dx \int_{-\pi}^{\pi} g^2 dx} < +\infty $$

> 其中利用了基本的积性不等式 $\int fg dx \le \sqrt{\int f^2 dx \int g^2 dx}$。

函数空间几何化:内积 $\langle \cdot, \cdot \rangle$ 的定义

有了线性空间后,为了引入“角度”和“投影”的概念,我们需要在 $V$ 上定义一个内积

对于任意 $f, g \in V$,我们定义其内积形式为在全周期上的加权积分:

$$ \langle f, g \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)g(x) dx $$

这个定义必须严格满足内积的三条核心公理:

  1. 线性度 / 对称性:$\langle f, g \rangle = \langle g, f \rangle$

  2. 正定性:$\langle f, f \rangle \ge 0$且$\langle f, f \rangle = 0 \iff f \equiv 0$> 注:在勒贝格积分意义下,这里的$f \equiv 0$表示$f$几乎处处为 0。若两个函数满足$\int{-\pi}^{\pi} |f-g|^2 dx = 0$,在几何上我们视它们为“同一个向量”(即 $f=g$)。_

正交的几何定义:有了内积,我们就可以定义函数之间的垂直关系。若两个函数的内积为零,即:

$$ \langle f, g \rangle = 0 $$

则称函数 $f$与$g$ 正交

三角函数基底的标准正交性验证

现在我们将视线移回由常数和三角函数构成的基底空间:

$$ V = \text{span}\left\{ \frac{1}{\sqrt{2}}, \cos(x), \sin(x), \dots, \cos(nx), \sin(nx), \dots \right\} $$

(注:为了后续规范化,这里将常数 1 修正为 $\frac{1}{\sqrt{2}}$,以便让所有基向量的模长统一。)

我们的目标是证明这组基是一组标准正交基,即满足克罗内克积性质:

$$ \langle \varphi_i, \varphi_j \rangle = \delta_{ij} = \begin{cases} 1, & i=j \\ 0, & i \neq j \end{cases} $$

通过经典的三角函数系积化和差公式,我们可以逐一验证其在内积定义下的正交与归一性:

1. 异类函数正交(正弦与余弦)

对于任意的正整数 $m, n$,正弦与余弦在周期内总是正交的:

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} \cos(mx)\sin(nx) dx = 0, \quad \forall m, n $$

2. 同类不同频函数正交(频率不相等)

当 $m \neq n$ 时,不同频率的波形相互独立:

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} \cos(mx)\cos(nx) dx = 0 \quad (m \neq n) $$

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} \sin(mx)\sin(nx) dx = 0 \quad (m \neq n) $$

3. 同类同频归一化(频率相等)

当 $m = n \ge 1$时,利用二倍角公式(如$\cos^2(nx) = \frac{1+\cos(2nx)}{2}$)积分:

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} \cos(mx)\cos(nx) dx = 1 \quad (m = n) $$

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} \sin(mx)\sin(nx) dx = 1 \quad (m = n) $$

4. 常数项基底的特殊验证

常数项与任何正余弦波形在全周期内积分均为 0(因为正余弦的均值为 0):

$$ \int_{-\pi}^{\pi} 1 \cdot \cos(nx) dx = 0; \quad \int_{-\pi}^{\pi} 1 \cdot \sin(nx) dx = 0 \quad (n \ge 1) $$

而常数基底自身的内积为:

$$ \langle 1, 1 \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} 1^2 dx = \frac{2\pi}{\pi} = 2 $$

这就是为什么我们在写傅里叶级数时,常数项往往写成 $\frac{a_0}{2}$的几何动机——因为常数$1$的模长平方是$2$,为了在形式上与后面模长为 $1$ 的三角项系数保持内积提取形式的统一,需要进行相应的数学修正。

通过这一套完美的标准正交基,任意函数 $f(x)$的傅里叶系数提取就变得易如反掌:只需要将$f(x)$分别与对应的基向量$\cos(nx)$或$\sin(nx)$做内积,就能像在线性代数中投射坐标一样,直接“拍”出系数$a_n$和$b_n$。

在建立了空间内积与三角基底的标准正交性后,最后一步核心任务就是利用正交投影严谨导出傅里叶系数,并明确函数能够展开为傅里叶级数的收敛条件(狄利克雷条件)。这完成了从线性代数框架到数学分析收敛性的闭环。

几何投影:傅里叶系数的精确导出

在线性代数中,已知一组标准正交基 ${\varphi_i}$,任意向量 $f$ 都可以表示为:

$$ f = \sum_{i=1}^{N} c_i \varphi_i $$

利用标准正交性 $\langle \varphi_i, \varphi_j \rangle = \delta_{ij}$,我们对等式两边同时与 $\varphi_i$ 做内积,可以直接“拍”出组合系数:

$$ c_i = \langle f, \varphi_i \rangle $$

现在,我们将这个结论完全平移到平方可积函数空间 $V$ 中。由于空间基底为:

$$ \left\{ \frac{1}{\sqrt{2}}, \cos(x), \sin(x), \dots, \cos(nx), \sin(nx), \dots \right\} $$

我们假设函数 $f(x)$ 展开为:

$$ f(x) \approx \tilde{a}_0 \cdot \frac{1}{\sqrt{2}} + \sum_{n=1}^{+\infty} \left[ a_n \cos(nx) + b_n \sin(nx) \right] $$

1. 提取余弦项系数 $a_n$与正弦项系数$b_n$利用定义好的内积$\langle f, g \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)g(x) dx$,当 $n \ge 1$ 时,直接作投影:

$$ a_n = \langle f, \cos(nx) \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\cos(nx) dx $$

$$ b_n = \langle f, \sin(nx) \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\sin(nx) dx $$

2. 提取常数项系数 $\tilde{a}_0$同理,将$f(x)$与常数基底$\frac{1}{\sqrt{2}}$ 做内积:

$$ \tilde{a}_0 = \left\langle f, \frac{1}{\sqrt{2}} \right\rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \cdot \frac{1}{\sqrt{2}} dx $$

为了消除项中不习惯的 $\sqrt{2}$,让常数项在形式上更统一,我们重新定义一个系数 $a_0$,令:

$$ a_0 = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \cdot 1 dx $$

此时,由于 $\tilde{a}0 \cdot \frac{1}{\sqrt{2}} = \left( \frac{1}{\sqrt{2}\pi} \int{-\pi}^{\pi} f(x)dx \right) \cdot \frac{1}{\sqrt{2}} = \frac{1}{2\pi} \int_{-\pi}^{\pi} f(x)dx = \frac{1}{2} a_0$,级数的常数项便自然化为了我们最熟悉的经典形式:

$$ f(x) \sim \frac{1}{2}a_0 + \sum_{n=1}^{+\infty} (a_n \cos(nx) + b_n \sin(nx)) = S(x) $$

收敛的边界:狄利克雷(Dirichlet)条件

写出级数表达式 $S(x)$只是形式上的展开。这个级数到底在什么情况下才能真正收敛,并且其和$S(x)$是否严格等于原函数$f(x)$ 呢?这就需要引入狄利克雷条件

对于定义在 $[-\pi, \pi]$上的函数$f(x)$,若满足以下三个条件,则其傅里叶级数在区间内是收敛的:

1. 分段连续 (Piecewise Continuous)

函数 $f: [-\pi, \pi] \to \mathbb{R}$ 在区间内只有有限个第一类间断点。

也就是说,可以把区间切分成有限个小区间 $(x_i, x_{i+1})$:

$$ -\pi = x_0 < x_1 < x_2 < \dots < x_k = \pi $$

使得 $f$在每个单侧开区间内都是连续的,并且在端点处的左极限$\lim_{x \to x_{i+1}^-} f(x)$与右极限$\lim_{x \to x_i^+} f(x)$ 均存在(不能发散到无穷大)。

2. 分段单调 (Piecewise Monotonic)

函数 $f(x)$在每个小区间$(x_i, x_{i+1})$内是单调的(要么单调递增,要么单调递减)。这意味着函数在整个大区间内只有有限个极值点,排除了像$y = \sin(1/x)$ 这样在原点附近产生无限次密集震荡的恶性函数。

3. 分段可导 / 导数有界 (Piecewise Differentiable)

函数 $f(x)$在每个小区间$(x_i, x_{i+1})$内可导,并且其导函数$f’(x)$ 在该区间内也是有界的。这一条件进一步保证了函数曲线的局部光滑度,使得级数逼近时在连续点处能够完美收敛。

当函数满足上述狄利克雷条件时,傅里叶级数的收敛值 $S(x)$ 具有如下极其漂亮的分析学性质:

  • 当 $x$是$f(x)$ 的连续点时,级数严格收敛于函数值:

$$ S(x) = f(x) $$

  • 当 $x$是$f(x)$ 的间断点时,级数将收敛于该点左右极限的算术平均值:

$$ S(x) = \frac{f(x^+) + f(x^-)}{2} $$

至此,傅里叶级数从空间的代数构造,最终平稳落地到了分析学的严格收敛应用上。

在明确了狄利克雷收敛定理之后,最有效的巩固方式就是通过一个经典的非光滑函数——方波函数(Square Wave)来亲自实践傅里叶系数的计算,并直观观察级数在连续点与跳跃间断点处的收敛表现。

经典案例:符号函数(方波)的构建

我们考虑一个在 $[-\pi, \pi]$上的分段恒定函数$f(x)$(实质上是符号函数 $\text{sgn}(x)$ 在该区间上的表现):

$$ f(x) = \begin{cases} 1, & x \in (0, \pi) \\ 0, & x = 0, \pm\pi \\ -1, & x \in (-\pi, 0) \end{cases} $$

物理与几何动机:这是一个最典型的不连续函数。它在 $x = 0$处有一个跨度为$2$的剧烈跳跃(从$-1$直接跳变到$1$)。我们希望用光滑的三角函数波形的叠加来逼近这个处处“坚硬”的方波。

傅里叶系数的精细推导

利用之前导出的正交投影公式,我们分别计算各个系数。

1. 常数项与余弦系数的奇偶性简化

注意到函数 $f(x)$是一个标准的奇函数(满足$f(-x) = -f(x)$)。

  • 常数基底 $1$和余弦基底$\cos(nx)$ 都是偶函数

  • 奇函数与偶函数的乘积仍为奇函数。

根据定积分在对称区间上的性质,奇函数在 $[-\pi, \pi]$上的积分必然为$0$。因此,我们甚至不需要进行具体代数计算,就能从几何对称性上直接判定:

$$ a_0 = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) dx = 0 $$

$$ a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\cos(nx) dx = 0, \quad \forall n \ge 1 $$

这意味着,奇函数的傅里叶展开中只包含正弦项(称为傅里叶正弦级数)

2.正弦项系数 $b_n$ 的计算

由于 $f(x)$和$\sin(nx)$都是奇函数,它们的乘积$f(x)\sin(nx)$ 变为偶函数。因此积分可以简化为半区间积分的两倍:

$$ b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\sin(nx) dx = \frac{2}{\pi} \int_{0}^{\pi} 1 \cdot \sin(nx) dx $$

进行一元积分:

$$ b_n = \frac{2}{\pi} \left[ -\frac{1}{n} \cos(nx) \right]_{0}^{\pi} = \frac{2}{n\pi} \left( -\cos(n\pi) + \cos(0) \right) $$

由于 $\cos(n\pi) = (-1)^n$,上式化简为:

$$ b_n = \frac{2}{n\pi} (1 - (-1)^n) $$

3. 系数的分类讨论

分析因子 $(1 - (-1)^n)$ 的取值:

  • 当 $n$ 为偶数($n = 2m$)时,$(-1)^n = 1$,则 $b_n = 0$。

  • 当 $n$ 为奇数($n = 2k+1$)时,$(-1)^n = -1$,则 $b_n = \frac{4}{n\pi}$。

4.级数合成与狄利克雷收敛验证

将计算出的系数代回傅里叶级数表达式:

$$ f(x) \sim \sum_{n=1}^{+\infty} \frac{2}{n\pi}(1 - (-1)^n) \sin(nx) = \frac{4}{\pi} \sum_{k=0}^{+\infty} \frac{1}{2k+1} \sin((2k+1)x) = S(x) $$

展开前几项可以更直观地看到波形的叠加:

$$ S(x) = \frac{4}{\pi} \left( \sin(x) + \frac{1}{3}\sin(3x) + \frac{1}{5}\sin(5x) + \dots \right) $$

现在我们用狄利克雷定理来严格检验其收敛值 $S(x)$:

  1. 在连续点处(如 $x \in (0, \pi)$)

    函数满足分段光滑,级数严格收敛于原函数值:

$$ S(x) = f(x) = 1 $$

  1. 在跳跃间断点处(如 $x = 0$)

    根据狄利克雷条件,级数应该收敛于左右极限的平均值。我们进行验证:

    • 左极限:$f(0^-) = -1$

    • 右极限:$f(0^+) = 1$

    • 理论收敛值:$\frac{f(0^-) + f(0^+)}{2} = \frac{-1 + 1}{2} = 0$直接带入级数级数解析式进行检验:当$x = 0$时,每一项$\sin((2k+1) \cdot 0) = 0$,所以整个级数的和 $S(0) = 0$。理论预言与级数实际求和结果完全吻合

这一完美的实例不仅展示了如何通过正交性剥离出特定频率的系数,更证明了即使面对有间断点的函数,傅里叶级数也能在整体能量不失真的前提下,以一种圆滑且极其优美的方式在间断点处准确平稳地着陆。

在深入理解了奇偶函数的特殊性质后,面对更具一般性的非对称分段信号,我们需要完整地同时计算出余弦和正弦系数。通过对这类函数的傅里叶级数在特定点(如不连续点)进行求值,我们不仅能再次验证狄利克雷收敛定理,还能意外获得求解数论中经典数项级数(如巴塞尔问题变形)的强力代数工具。

复杂分段函数的傅里叶级数展开

考虑如下非对称的分段函数 $f(x)$:

$$ f(x) = \begin{cases} x, & x \in [0, \pi) \\ 0, & x = \pi \\ -\pi, & x \in (-\pi, 0) \end{cases} $$

动机分析:该函数在 $(-\pi, 0)$内为常数,在$[0, \pi)$内为线性函数,既非奇函数也非偶函数。因此,其傅里叶系数中同时存在直流分量$a_0$、余弦分量 $a_n$与正弦分量$b_n$。我们需要在区间上分段进行定积分提取。

1. 常数项系数 $a_0$ 的计算

$$ \begin{aligned} a_0 &= \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) dx = \frac{1}{\pi} \left[ \int_{-\pi}^{0} (-\pi) dx + \int_{0}^{\pi} x dx \right] \\ &= \frac{1}{\pi} \left[ -\pi^2 + \frac{\pi^2}{2} \right] = -\frac{\pi}{2} \end{aligned} $$

2. 余弦项系数 $a_n$ 的计算($n \ge 1$)

$$ \begin{aligned} a_n &= \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\cos(nx) dx = \frac{1}{\pi} \left[ \int_{-\pi}^{0} (-\pi)\cos(nx) dx + \int_{0}^{\pi} x\cos(nx) dx \right] \end{aligned} $$

  • 左半部分:$\int_{-\pi}^{0} (-\pi)\cos(nx) dx = -\pi \left[ \frac{\sin(nx)}{n} \right]_{-\pi}^{0} = 0$

  • 右半部分(使用分部积分法):

$$ \int_{0}^{\pi} x\cos(nx) dx = \left[ \frac{x\sin(nx)}{n} \right]_{0}^{\pi} - \int_{0}^{\pi} \frac{\sin(nx)}{n} dx = 0 - \left[ -\frac{\cos(nx)}{n^2} \right]_{0}^{\pi} = \frac{(-1)^n - 1}{n^2} $$

合并得到:

$$ a_n = \frac{(-1)^n - 1}{n^2\pi} $$

3. 正弦项系数 $b_n$ 的计算($n \ge 1$)

$$ \begin{aligned} b_n &= \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)\sin(nx) dx = \frac{1}{\pi} \left[ \int_{-\pi}^{0} (-\pi)\sin(nx) dx + \int_{0}^{\pi} x\sin(nx) dx \right] \end{aligned} $$

  • 左半部分:$-\pi \left[ -\frac{\cos(nx)}{n} \right]_{-\pi}^{0} = \frac{\pi}{n}(1 - (-1)^n)$

  • 右半部分:$\left[ -\frac{x\cos(nx)}{n} \right]{0}^{\pi} - \int{0}^{\pi} \left(-\frac{\cos(nx)}{n}\right) dx = -\frac{\pi(-1)^n}{n}$合并各项并消去$\pi$:

$$ b_n = \frac{1}{n}(1 - 2(-1)^n) $$

4. 级数形式合成

将各系数代入标准表达式中(注意直流项为 $\frac{a_0}{2}$):

$$ f(x) \sim -\frac{\pi}{4} + \sum_{n=1}^{+\infty} \left[ \frac{(-1)^n - 1}{n^2\pi} \cos(nx) + \frac{1}{n}(1 - 2(-1)^n) \sin(nx) \right] = S(x) $$

狄利克雷定理在跳跃间断点 $x=0$ 处的检验

该函数在 $x=0$ 处不连续,我们利用狄利克雷定理来计算级数在该点处的理论收敛值:

  • 左极限:$f(0^-) = -\pi$

  • 右极限:$f(0^+) = 0$

  • 理论收敛值:

$$ S(0) = \frac{f(0^-) + f(0^+)}{2} = \frac{-\pi + 0}{2} = -\frac{\pi}{2} $$

应用拓宽:解析经典数项级数的和

核心动机:如果我们直接对傅里叶级数解析式在 $x=0$处代入求和,并令其等于理论收敛值$-\frac{\pi}{2}$,就能建立起函数空间与纯数级数之间的神奇桥梁。

当 $x=0$时,所有正弦项$\sin(0)=0$,余弦项 $\cos(0)=1$,级数表达式简化为:

$$ S(0) = -\frac{\pi}{4} + \sum_{n=1}^{+\infty} \frac{(-1)^n - 1}{n^2\pi} $$

令其等于理论值 $-\frac{\pi}{2}$:

$$ -\frac{\pi}{2} = -\frac{\pi}{4} + \sum_{n=1}^{+\infty} \frac{(-1)^n - 1}{n^2\pi} \implies -\frac{\pi}{4} = \sum_{n=1}^{+\infty} \frac{(-1)^n - 1}{n^2\pi} $$

1. 求解奇数项平方倒数和

分析分子项 $((-1)^n - 1)$:

  • 当 $n$ 为偶数时,$1 - 1 = 0$,项消失;

  • 当 $n$为奇数时(令$n = 2k+1$),$-1 - 1 = -2$。

因此,级数中仅剩下奇数项:

$$ -\frac{\pi}{4} = \sum_{k=0}^{+\infty} \frac{-2}{(2k+1)^2\pi} \implies -\frac{\pi}{4} = -\frac{2}{\pi} \sum_{k=0}^{+\infty} \frac{1}{(2k+1)^2} $$

两边同乘 $-\frac{\pi}{2}$,精确导出:

$$ \sum_{k=0}^{+\infty} \frac{1}{(2k+1)^2} = \frac{\pi^2}{8} $$

2. 泛化推导:解决巴塞尔问题 $\sum \frac{1}{n^2}$我们可以进一步利用上述奇数项的求和结果,推导出所有正整数的平方倒数和(即著名的$\zeta(2)$ )。

设总和为 $X = \sum_{n=1}^{+\infty} \frac{1}{n^2}$,我们可以将其拆分为偶数项与奇数项两部分:

$$ X = \sum_{n=\text{偶数}} \frac{1}{n^2} + \sum_{n=\text{奇数}} \frac{1}{n^2} = \sum_{m=1}^{+\infty} \frac{1}{(2m)^2} + \sum_{k=0}^{+\infty} \frac{1}{(2k+1)^2} $$

将偶数项提取出 $\frac{1}{4}$:

$$ X = \frac{1}{4} \sum_{m=1}^{+\infty} \frac{1}{m^2} + \frac{\pi^2}{8} \implies X = \frac{1}{4}X + \frac{\pi^2}{8} $$

移项化简:

$$ \frac{3}{4}X = \frac{\pi^2}{8} \implies X = \sum_{n=1}^{+\infty} \frac{1}{n^2} = \frac{\pi^2}{6} $$

这向我们展示了傅里叶级数非凡的副产物:原本属于高等微积分的函数空间正交分解方法,居然能够极其轻巧地破解纯粹数论中极其困难的解析求和问题。

在前一个案例中,我们处理了一个在原点处不连续的函数。现在,为了研究更具光滑性的波形,我们引入一个连续但非处处可导的二次抛物线拼接信号。通过它,我们不仅能观察到傅里叶系数随频率衰减速度的变化规律,还能顺藤摸瓜地攻克更高级的数项级数求和问题(如 $\sum \frac{1}{n^4}$)。

一、 连续分段函数(抛物线波形)的构建

考虑如下在 $[-\pi, \pi]$上的分段二次函数$f(x)$:

$$ f(x) = \begin{cases} (x-\pi)^2, & x \in [0, \pi] \\ (x+\pi)^2, & x \in [-\pi, 0) \end{cases} $$

物理与几何动机

  1. 对称性(奇偶性):由于 $f(-x) = f(x)$,该函数是一个标准的偶函数。它在 $x=0$处的取值为$\pi^2$,在 $x=\pm\pi$处光滑地落到$0$。

  2. 光滑度提升:与前面的方波和锯齿波相比,这个函数在区间内部以及周期边界上(由于 $f(-\pi)=f(\pi)=0$)都是完全连续的。这种连续性将直接映射到其傅里叶系数的衰减速率上。

二、 傅里叶系数的精细推导

利用偶函数的对称性质,我们可以大幅化简内积分运算。

1. 正弦分量系数 $b_n$由于$f(x)$是偶函数,而$\sin(nx)$ 是奇函数,它们的乘积在对称区间上的积分恒为零:

$$ b_n = 0, \quad \forall n \ge 1 $$

这意味着,偶函数的傅里叶展开只包含直流分量与余弦分量(称为傅里叶余弦级数)

2. 直流项系数 $a_0$

利用半区间积分的两倍:

$$ a_0 = \frac{2}{\pi} \int_{0}^{\pi} (x-\pi)^2 dx = \frac{2}{\pi} \left[ \frac{(x-\pi)^3}{3} \right]_{0}^{\pi} = \frac{2}{\pi} \left[ 0 - \frac{(-\pi)^3}{3} \right] = \frac{2}{3}\pi^2 $$

3. 余弦项系数 $a_n$ ($n \ge 1$)

同样利用偶函数性质展开,并采用连续两次分部积分法

$$ a_n = \frac{2}{\pi} \int_{0}^{\pi} (x-\pi)^2 \cos(nx) dx $$

  • 第一次分部积分:

$$ a_n = \frac{2}{\pi} \left[ (x-\pi)^2 \frac{\sin(nx)}{n} \right]_{0}^{\pi} - \frac{2}{\pi} \int_{0}^{\pi} 2(x-\pi) \frac{\sin(nx)}{n} dx $$

由于 $\sin(n\pi) = \sin(0) = 0$,第一项完全消失。化简剩:

$$ a_n = -\frac{4}{n\pi} \int_{0}^{\pi} (x-\pi) \sin(nx) dx $$

  • 第二次分部积分:

$$ a_n = -\frac{4}{n\pi} \left[ (x-\pi) \frac{-\cos(nx)}{n} \right]_{0}^{\pi} + \frac{4}{n\pi} \int_{0}^{\pi} 1 \cdot \frac{-\cos(nx)}{n} dx $$

因为 $\int_{0}^{\pi} \cos(nx) dx = 0$(当 $n \ge 1$),最后一项积分项再次消失。我们只需要代入边界评估前一项:

$$ a_n = \frac{4}{n^2\pi} \left[ (x-\pi)\cos(nx) \right]_{0}^{\pi} = \frac{4}{n^2\pi} \left[ 0 - (-\pi)\cos(0) \right] = \frac{4}{n^2} $$

4. 级数形式合成

将系数代入标准傅里叶余弦级数公式(注意直流项需要除以 2):

$$ f(x) \sim \frac{1}{3}\pi^2 + \sum_{n=1}^{+\infty} \frac{4}{n^2} \cos(nx) = S(x) $$

数学本质观察:对比前几节的方波系数(正比于 $\frac{1}{n}$),当前二次波形的系数正比于 $\frac{1}{n^2}$。在分析学中,这表明原函数越光滑(连续性越好),其高频谐波系数衰减得就越快

三、 狄利克雷收敛验证与级数求和

由于该函数在其定义域内处处连续,根据狄利克雷定理,在任意点 $x$处都必定有$S(x) = f(x)$。

1. 回归巴塞尔问题(验证 $x=0$ 点)

我们在 $x = 0$处对级数进行求值。此时$f(0) = \pi^2$,且 $\cos(0) = 1$:

$$ \pi^2 = \frac{1}{3}\pi^2 + \sum_{n=1}^{+\infty} \frac{4}{n^2} \implies \frac{2}{3}\pi^2 = 4 \sum_{n=1}^{+\infty} \frac{1}{n^2} $$

两边同时除以 $4$,再次极其漂亮地导出了巴塞尔问题的经典答案:

$$ \sum_{n=1}^{+\infty} \frac{1}{n^2} = \frac{\pi^2}{6} $$

2. 探索未知:求解四次平方倒数和 $\sum \frac{1}{n^4}$更高阶的动机:利用刚刚构造出的这个连续函数的傅里叶级数,我们该如何提取出带有$n^4$ 分母的数项级数呢?

这需要借助帕塞瓦尔恒等式(Parseval’s Identity)。该定理在线性代数中的本质就是“毕达哥拉斯定理(勾股定理)”在无穷维标准正交基函数空间中的延伸——向量的总能量(模长平方)等于其各个分量能量的总和

根据内积空间中的帕塞瓦尔恒等式:

$$ \frac{1}{\pi} \int_{\alpha}^{\beta} |f(x)|^2 dx = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) $$

(注:这里由于我们的内积定义带了 $\frac{1}{\pi}$ 前缀,故左侧形式对应匹配。)

我们将本题的系数 $a_0 = \frac{2}{3}\pi^2$,$a_n = \frac{4}{n^2}$ 统一代入:

  • 左端项(总能量):

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} |f(x)|^2 dx = \frac{2}{\pi} \int_{0}^{\pi} (x-\pi)^4 dx = \frac{2}{\pi} \left[ \frac{(x-\pi)^5}{5} \right]_{0}^{\pi} = \frac{2}{5}\pi^4 $$

  • 右端项(分量平方和):

$$ \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} a_n^2 = \frac{1}{2}\left(\frac{2}{3}\pi^2\right)^2 + \sum_{n=1}^{+\infty} \left(\frac{4}{n^2}\right)^2 = \frac{2}{9}\pi^4 + 16 \sum_{n=1}^{+\infty} \frac{1}{n^4} $$

令两端相等:

$$ \frac{2}{5}\pi^4 = \frac{2}{9}\pi^4 + 16 \sum_{n=1}^{+\infty} \frac{1}{n^4} $$

$$ \left(\frac{2}{5} - \frac{2}{9}\right)\pi^4 = 16 \sum_{n=1}^{+\infty} \frac{1}{n^4} \implies \frac{8}{45}\pi^4 = 16 \sum_{n=1}^{+\infty} \frac{1}{n^4} $$

两边同时除以 16,我们最终一锤定音地解出了四次幂级数的和:

$$ \sum_{n=1}^{+\infty} \frac{1}{n^4} = \frac{\pi^4}{90} $$

从代数逼近的局限,到内积空间的几何化,再到算子方程的求解,最后到帕塞瓦尔能量守恒破解数论级数——至此,傅里叶级数在解析与几何上的宏伟全貌已全部闭环。

从标准周期到任意周期的坐标伸缩

在经典的傅里叶级数中,我们通常习惯于在区间 $[-\pi, \pi]$上讨论周期为$2\pi$的函数。然而,现实中的物理信号或波动方程往往定义在任意长度的区间$[-L, L]$上,其周期为$2L$。我们的首要动机,就是通过一种平移和伸缩的变量代换,将未知的任意周期问题转化为已知的标准 $2\pi$ 周期问题。

设函数 $f(x)$定义在$[-L, L]$上,其周期为$2L$。为了将其映射到以 $t$为自变量的$[-\pi, \pi]$ 空间,我们需要构造一个线性映射。

由于当 $x = L$时,我们需要$t = \pi$,因此两者的比例关系应当满足:

$$ \frac{t}{x} = \frac{\pi}{L} $$

由此我们引入频率参数 $\omega = \frac{\pi}{L}$。于是,坐标变换关系可以优雅地写为:

$$ t = \omega x, \quad x = \frac{t}{\omega} $$

通过这个桥梁,我们构造一个辅助函数 $g(t)$,使得它在 $t \in [-\pi, \pi]$上的表现完全复刻$f(x)$在$x \in [-L, L]$ 上的行为:

$$ g(t) = f\left(\frac{t}{\omega}\right) = f\left(\frac{L}{\pi}t\right) $$

由于 $f(x)$的周期是$2L$,容易验证 $g(t)$的周期恰好是$2\pi$。现在,我们可以直接写出 $g(t)$ 在标准区间上的傅里叶级数展开:

$$ g(t) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} \left( a_n \cos(nt) + b_n \sin(nt) \right) $$

这只是我们在标准空间里的工具。为了回归现实,我们需要将 $t = \omega x$ 逆向代回上式。通过这个回代过程,我们便完成了从标准周期到任意周期傅里叶级数的严格推导:

$$ f(x) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} \left( a_n \cos(n\omega x) + b_n \sin(n\omega x) \right) $$

其中,$\omega = \frac{\pi}{L}$。这表明,任意周期的函数依然可以分解为一组相互正交的三角函数基 ${\cos(n\omega x), \sin(n\omega x)}$ 的线性组合。

对称性的馈赠:奇偶函数的系数简化

当我们得到任意周期的展开式后,下一个动机是如何利用函数自身的几何对称性来减少积分计算的冗余。积分在几何上代表面积。如果三角函数基与函数本身具有某种奇偶对称性的契合,积分的基底就会发生有趣的坍塌。

1. 奇函数(本质奇)

当 $f(x)$是一个奇函数时,它关于原点中心对称,满足$f(-x) = -f(x)$。

由于余弦函数 $\cos(n\omega x)$是偶函数,奇函数与偶函数的乘积依然是奇函数。在对称区间$[-L, L]$ 上,奇函数的积分必然为零。因此,所有的余弦系数全部消亡:

$$ a_n = 0 \quad (\forall n \ge 0) $$

而正弦函数 $\sin(n\omega x)$也是奇函数,两个奇函数相乘变成了偶函数。偶函数在对称区间上的积分等于正区间上积分的两倍。因此,正弦系数$b_n$ 的计算可以从整个区间简化为半区间:

$$ b_n = \frac{1}{L} \int_{-L}^{L} f(x) \sin(n\omega x) \, dx = \frac{2}{L} \int_{0}^{L} f(x) \sin(n\omega x) \, dx $$

2. 偶函数(本质偶)

同理,当 $f(x)$是一个偶函数时,它关于$y$轴轴对称,满足$f(-x) = f(x)$。

此时,偶函数与奇函数 $\sin(n\omega x)$ 的乘积变成奇函数,在对称区间上的积分归零。这意味着所有的正弦系数荡然无存:

$$ b_n = 0 \quad (\forall n \ge 1) $$

而余弦部分因为是两个偶函数相乘,依然保持偶性,积分同样可以减半:

$$ a_n = \frac{2}{L} \int_{0}^{L} f(x) \cos(n\omega x) \, dx $$

定义域的平移与周期拓延

在讨论了对称区间 $[-L, L]$ 之后,我们常常还会遇到另一种常见的定义域形式:$[0, 2L]$。虽然区间变了,但其本质跨度(周期)依然是 $2L$。这里的动机在于证明:由于三角函数和周期函数的循环特性,只要积分区间的长度等于一个完整的周期,积分的具体起点并不会影响傅里叶系数的最终结果。

对于定义在 $x \in [0, 2L]$上的函数$f(x) \to \mathbb{R}$,其傅里叶级数的形式在结构上与前文完全一致:

$$ f(x) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} \left( a_n \cos(n\omega x) + b_n \sin(n\omega x) \right) $$

唯一的区别在于傅里叶系数的积分区间。当我们直接在函数的定义域上提取系数时,积分区间为 $[0, 2L]$:

$$ a_n = \frac{1}{L} \int_{0}^{2L} f(x) \cos(n\omega x) \, dx $$

为了直观理解这一点,我们可以引入一个无缝拼接的几何视角:

从几何图形的拓延来看,将函数在 $[-\pi, \pi]$上的图象向右平移,或者直接研究它在$[0, 2\pi]$ 上的表现,它们所围成的面积在总量上是完全守恒的。因此,我们在线性空间里可以得到一个重要的等价恒等式:

$$ a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(t) \cos(nt) \, dt = \frac{1}{\pi} \int_{0}^{2\pi} f(t) \cos(nt) \, dt $$

这种区间的等价性赋予了傅里叶分析极大的自由度。无论是选择关于原点对称的区间来利用奇偶性简化计算,还是选择从零开始的区间来顺应信号的物理时间轴,其数学本质在傅里叶变换的框架下都是完全融通的。

任意周期系数的严格换元推导

在将周期为 $2L$的函数$f(x)$映射到标准周期$2\pi$的辅助函数$g(t)$后,我们通过已知的标准傅里叶系数公式,对任意周期的系数$a_n$ 进行严格的换元积分推导。

设变换关系为 $t = \omega x = \frac{\pi}{L}x$,则微分关系为 $dt = \frac{\pi}{L}dx$。

标准级数的系数定义在 $t \in [-\pi, \pi]$ 上:

$$ a_n = \frac{1}{\pi} \int_{-\pi}^{\pi} g(t) \cos(nt) \, dt $$

我们的动机是将积分变量由物理意义抽象的 $t$空间还原回原始的$x$空间。代入$g(t) = f\left(\frac{L}{\pi}t\right) = f(x)$以及$dt$的微分关系,积分区间从$[-\pi, \pi]$相应地变换为$x \in [-L, L]$:

$$ a_n = \frac{1}{\pi} \int_{-L}^{L} f(x) \cos\left(n \frac{\pi}{L} x\right) \cdot \frac{\pi}{L} \, dx $$

消去常数项 $\pi$,我们便严格得到了任意周期下的系数提取公式:

$$ a_n = \frac{1}{L} \int_{-L}^{L} f(x) \cos(n\omega x) \, dx $$

同理,对于定义在正向半周期平移区间 $[0, 2L]$上的函数,积分范围对称地平移为$[0, 2L]$。其背后的数学本质在于:在一个完整周期长度内,基向量与函数的内积(即积分值)对区间的起点具有平移不变性。

典型案例分析:绝对值正弦波的谱分解

为了具体化对称性的应用,我们引入一个具有极高工程价值的经典案例:全波整流波形(绝对值正弦波)

设函数 $f(x) = |\sin(\omega x)|$,其中 $\omega = \frac{\pi}{L}$,定义在 $x \in [-L, L]$。

1. 奇偶性预判(动机:消除冗余计算)

由于 $f(-x) = |\sin(-\omega x)| = |-\sin(\omega x)| = |\sin(\omega x)| = f(x)$,该函数是一个标准的偶函数。

几何上,图形关于 $y$轴完全对称。因此,它与任何奇函数基$\sin(n\omega x)$ 的内积在对称区间上必然相互抵消:

$$ b_n = 0 \quad (\forall n \ge 1) $$

这意味着其展开式中将只包含直流分量与余弦谐波。

2. 利用对称性减半区间

由于函数和余弦基皆为偶函数,其乘积在 $[-L, L]$ 上的积分可以简化为正半区间的两倍:

$$ a_n = \frac{2}{L} \int_{0}^{L} |\sin(\omega x)| \cos(n\omega x) \, dx $$

在区间 $x \in [0, L]$ 上,$\omega x \in [0, \pi]$,此时 $\sin(\omega x) \ge 0$,因此绝对值符号可以直接去掉。积分式转化为:

$$ a_n = \frac{2}{L} \int_{0}^{L} \sin\left(\frac{\pi}{L}x\right) \cos\left(n\frac{\pi}{L}x\right) \, dx $$

通过积化和差公式,我们可以将两个正交基的乘积转化为单一频率的余弦组合,进而轻松求出各项系数。这表明,看似复杂的非线性绝对值波形,通过奇偶性简化后,计算难度会大幅度降低。

半区间展开:边界拓延的选择艺术

在实际应用(如热传导方程、波动方程的边界值问题)中,函数 $f(x)$往往最初只定义在半区间$[0, L]$ 上。由于该区间不具备周期性,我们无法直接对其进行傅里叶分解。

我们的核心动机在于:人为地将定义在 $[0, L]$上的函数拓延到$[-L, L]$ 上,使其获得周期性与对称性。拓延的方式不同,会导致函数在边界外的行为发生剧变,从而产生截然不同的级数表达。

针对定义在 $[0, L]$上的$f(x) \to \mathbb{R}$,存在以下三种主流的拓延策略:

1. 直接周期拓延 (以 L 为周期)  -> 包含正余弦,边界可能不连续
2. 奇拓延 (以 2L 为周期)     -> 仅含正弦项 (正弦级数),边界强行归零
3. 偶拓延 (以 2L 为周期)     -> 仅含余弦项 (余弦级数),边界平滑过渡

策略一:以 $L$ 为周期的直接延拓

最直观的想法是将 $[0, L]$ 直接作为最小正周期进行复制。

此时函数的物理周期变为 $L$(相当于前文公式中的 $2L’ = L \implies L’ = \frac{L}{2}$),基频率提升为 $\omega = \frac{2\pi}{L}$。

其级数展现为同时含有正余弦的完全体:

$$ f(x) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} \left( a_n \cos\left(\frac{2n\pi}{L}x\right) + b_n \sin\left(\frac{2n\pi}{L}x\right) \right) $$

  • 动机缺陷: 如果 $f(0) \neq f(L)$,这种强行拓延会导致在边界点 $x = L, 2L, \dots$ 处出现第一类跳跃间断点,从而在级数收敛时引发吉布斯现象(Gibbs phenomenon)

策略二:奇延拓(构造正弦级数)

为了消除余弦项,或者为了满足边界上 $f(0)=f(L)=0$的物理约束,我们可以构造一个奇函数$F^o(x)$:

$$ F^o(x) = \begin{cases} f(x), & x \in (0, L) \\ 0, & x = 0, L \\ -f(-x), & x \in (-L, 0) \end{cases} $$

随后,再将 $F^o(x)$以$2L$为周期进行全轴拓延。由于$F^o(x)$ 是严格的奇函数,所有的余弦系数自然坍塌:

$$ a_n^o = 0 $$

系数完全由正弦项继承:

$$ b_n^o = \frac{2}{L} \int_{0}^{L} f(x) \sin\left(\frac{n\pi}{L}x\right) \, dx $$

此时,函数被完全展开为纯正弦级数:$f(x) \sim \sum_{n=1}^{+\infty} b_n^o \sin\left(\frac{n\pi}{L}x\right)$。

策略三:偶延拓(构造余弦级数)

如果物理边界条件要求导数为零(如绝热边界),或者为了在边界处获得更好的平滑度,我们可以构造一个偶函数 $F^e(x)$:

$$ F^e(x) = \begin{cases} f(x), & x \in [0, L] \\ f(-x), & x \in [-L, 0) \end{cases} $$

将其以 $2L$ 为周期进行全轴拓延。基于偶函数的性质,所有的正弦系数被洗脱:

$$ b_n^e = 0 $$

余弦系数在半区间上加倍提取:

$$ a_n^e = \frac{2}{L} \int_{0}^{L} f(x) \cos\left(\frac{n\pi}{L}x\right) \, dx $$

由此,函数在区间 $[0, L]$ 上被等价地表达为纯余弦级数:

$$ f(x) \sim \frac{a_0^e}{2} + \sum_{n=1}^{+\infty} a_n^e \cos\left(\frac{n\pi}{L}x\right) $$

总结与收敛性洞察:

虽然这三种拓延方法在原始区间 $x \in [0, L]$ 上的数学取值完全等价,但由于它们在区间外部构造的几何形态各异,它们在边界点处的收敛速度和连续性有着本质不同。这种边界拓延的自由度,正是傅里叶分析解决边界值问题时最核心的威力所在。

函数空间的代数视角:半区间拓延的基底坍塌

当我们把定义在 $[0, L]$上的函数$f(x)$ 分别通过三种不同的拓延方式(直接周期、奇、偶拓延)推向全轴时,在代数上,这本质上对应着将同一个函数投射到三个不同的希尔伯特空间(Hilbert Space)子空间中

下面我们站在线性代数的视角,将这三种拓延策略所对应的正交基进行系统的梳理:

一、 三种拓延对应的函数空间基底

1. 策略一:直接周期拓延空间 $V_L$当我们把$[0, L]$视为一个独立的完整周期进行拓延时,所产生的函数空间我们记为$V_L$。在这个空间中,谐波的基频率变成了 $\frac{2\pi}{L}$。

其对应的标准正交基底为:

$$ \left\{ 1, \, \cos\left(\frac{2\pi}{L}x\right), \, \sin\left(\frac{2\pi}{L}x\right), \, \dots, \, \cos\left(n\frac{2\pi}{L}x\right), \, \sin\left(n\frac{2\pi}{L}x\right), \, \dots \right\} $$

2. 策略二:奇拓延空间 $V_1$(纯正弦空间)

若我们将函数进行奇拓延,函数在 $[-L, L]$上的物理周期变为$2L$。由于奇对称性,所有的余弦项被清洗,空间被坍塌为纯正弦子空间,记为 $V_1$。

容易发现,这个空间是 $2L$周期总空间$V_{2L}$ 的一个子空间($V_1 \subset V_{2L}$)。其对应的基底为:

$$ \left\{ \sin\left(\frac{\pi}{L}x\right), \, \sin\left(2\frac{\pi}{L}x\right), \, \dots, \, \sin\left(n\frac{\pi}{L}x\right), \, \dots \right\} $$

从集合势的角度来看,虽然它们都是无穷维空间,但其基底的“大小”(维度)在代数意义上满足 $\dim(V_1) = |\mathbb{N}|$。

3. 策略三:偶拓延空间 $V_2$(纯余弦空间)

同理,偶拓延对应的空间是纯余弦子空间,记为 $V_2$。它同样包含于 $2L$ 周期的总空间($V_2 \subset V_{2L}$)。

其对应的基底为:

$$ \left\{ 1, \, \cos\left(\frac{\pi}{L}x\right), \, \cos\left(2\frac{\pi}{L}x\right), \, \dots, \, \cos\left(n\frac{\pi}{L}x\right), \, \dots \right\} $$

同样地,其空间维度为 $\dim(V_2) = \dim(V_1) = |\mathbb{N}|$。

二、 正弦谐波空间的深层正交直和分解

为了进一步解构纯正弦空间 $V_1$,我们可以根据谐波频率的奇偶性,将正弦基底再次做代数上的切分。这种解构的动机在于研究更精细的波动对称性(例如不仅关于原点奇对称,还关于半周期点对称)。

我们将 $V_1$ 拆分为两个更小的子空间:

  • 偶次谐波正弦空间 $V_{1, e}$:由所有偶数倍频的正弦基向量张成。

$$ V_{1, e} = \text{span}\left\{ \sin\left(2n\frac{\pi}{L}x\right) \right\}_{n=1}^{\infty} $$

  • 奇次谐波正弦空间 $V_{1, o}$:由所有奇数倍频的正弦基向量张成。

$$ V_{1, o} = \text{span}\left\{ \sin\left((2m+1)\frac{\pi}{L}x\right) \right\}_{m=0}^{\infty} $$

因为不同频率的正弦波在区间上是严格正交的,所以这两个子空间的交集仅含零元素($V_{1, e} \cap V_{1, o} = {0}$)。于是,整个纯正弦空间可以完美地表示为这两个子空间的正交直和

$$ V_1 = V_{1, e} \oplus V_{1, o} $$

三、 空间基底的代数变换与耦合关系

在线性代数中,当一个向量在不同的基底下表示时,我们可以通过过渡矩阵来进行坐标变换。板书右下角展示的正是不同谐波子空间之间的耦合与变换动机。

如果我们希望将某一类子空间 $\begin{pmatrix} V_1 \ V_2 \end{pmatrix}$ 中的元素,投影或变换到另一组由特定奇偶谐波混合构成的空间中,可以通过三角函数的积化和差以及正交投影矩阵来建立联系。例如,考虑奇次正弦波与最基础的单倍频余弦/正弦项相乘时的耦合:

$$ \sin\left(2n\frac{\pi}{L}x\right)\cos\left(\frac{\pi}{L}x\right), \quad \sin\left(2n\frac{\pi}{L}x\right)\sin\left(\frac{\pi}{L}x\right) $$

利用三角恒等式展开:

$$ \sin\left(2n\frac{\pi}{L}x\right)\cos\left(\frac{\pi}{L}x\right) = \frac{1}{2}\left[\sin\left((2n+1)\frac{\pi}{L}x\right) + \sin\left((2n-1)\frac{\pi}{L}x\right)\right] $$

这个代数事实表明:一个偶次谐波正弦空间中的基向量,在受到一个基本余弦扰动(调制)后,其频谱会完全线性组合转化为奇次谐波正弦空间 $V_{1, o}$ 中的基向量。

这种子空间之间的转换关系,不仅在线性空间理论中非常优美,在现代信号处理的“调制解调”以及量子力学算符的正确选择中,更是构成了其最核心的代数骨架。

最佳逼近的动机:数据、物理与模型的博弈

在面对来自物理世界的真实数据(Data)时,我们通常希望建立一个数学模型(Model)来描述它。此时会面临一个核心矛盾:模型的复杂性(Complexity)与预测能力(Prediction)的权衡

  • 过拟合(Overfitting):如果我们一味追求模型在已知数据点上的完美拟合,使用极其复杂的超高维函数(如高次多项式或过多项的三角级数),模型会去追踪数据中的噪声,导致其剧烈震荡。虽然在已知点上的误差为 $0$,但脱离这些点后的预测能力会彻底崩溃。

  • 奥卡姆剃刀原理:我们希望模型在保持“相对简单(Simple Model)”的同时,尽可能逼近真实数据。

为了量化这种“逼近”,我们引入内积空间中的距离概念。若真实函数为 $f$,逼近模型为 $T_N$,我们的目标是最小化它们之间的均方误差:

$$ \min \int ( \text{Data} - \text{Model} )^2 \, dx = \min \| f - T_N \|^2 $$

在线性空间中,寻找这个最小误差模型的本质,就是做正交投影

正交投影定理与傅里叶最佳逼近

1. 子空间的构建

设 $f(x)$为我们想要逼近的平方可积函数。我们引入一个由前$N$阶三角函数生成的有限维子空间$V_N$:

$$ V_N = \text{span} \{ 1, \cos(x), \sin(x), \dots, \cos(Nx), \sin(Nx) \} $$

显然,该空间的维数为 $\dim(V_N) = 2N + 1$。在该子空间中,任意一个元素(即三角多项式)都可以写成:

$$ T_N(x) = \frac{a_0}{2} + \sum_{n=1}^N (a_n \cos(nx) + b_n \sin(nx)) $$

2. 引理:正交投影的几何本质

要让 $T_N \in V_N$成为$f$在该子空间上的最佳逼近,几何直觉告诉我们:从向量$f$指向子空间$V_N$的误差向量$f - T_N$ 必须垂直于该子空间。

引理(正交垂直关系)

设 $T_N$是$f$在$V_N$中的最佳逼近,则对任意的$g \in V_N$,都有误差向量与子空间正交:

$$ \langle f - T_N, g \rangle = 0 \quad (\text{即 } f - T_N \perp V_N) $$

此时,$T_N$称为$f$在子空间$V_N$上的正交投影,记作$T_N = P_{V_N} f$。

3. 定理的严密验证

我们通过计算内积来验证傅里叶系数是否天然满足这一正交性。两组基向量的验证是对称的,此处以基向量 $\cos(nx)$(其中$n=0,1,\dots,N$)为例:

利用内积的线性性质,将误差项拆开:

$$ \langle f - T_N, \cos(nx) \rangle = \langle f, \cos(nx) \rangle - \langle T_N, \cos(nx) \rangle $$

由于三角函数系具有标准正交性(此处略去规范化常数 $\pi$的干扰,重点看系数耦合),将$T_N$的展开式代入后,除了相同频率的项外,其余项的内积均为$0$:

$$ \langle T_N, \cos(nx) \rangle = \left\langle \dots + a_n\cos(nx) + \dots, \cos(nx) \right\rangle = a_n \cdot \pi $$

而在傅里叶系数的定义中,原本就有 $a_n = \frac{1}{\pi} \langle f, \cos(nx) \rangle$。因此:

$$ \langle f - T_N, \cos(nx) \rangle = a_n \cdot \pi - a_n \cdot \pi = 0 $$

结论:傅里叶级数的前 $N$项截断项$T_N$,恰好就是 $f$在有限维子空间$V_N$ 上的正交投影。这就从几何上保证了傅里叶有限项截断是在均方误差意义下的最佳逼近

核心定理:均方误差意义下的最佳逼近与唯一性

设 $f$为定义在$[-\pi, \pi]$上的平方可积函数(即$f \in L^2[-\pi, \pi]$),其 $L^2$模长定义为$|g|{L^2}^2 = \langle g, g \rangle = \int{-\pi}^\pi |g(x)|^2 dx$。

设 $V_N$是由前$N$阶三角函数生成的$(2N+1)$ 维子空间,$T_N \in V_N$为$f$的傅里叶级数前$N$ 项截断。

最佳逼近定理

  1. 存在性(最佳逼近):对于任意的子空间元素 $g \in V_N$,傅里叶截断 $T_N$ 能够最大程度地减小均方误差:

$$ \|f - T_N\|_{L^2}^2 = \min_{g \in V_N} \|f - g\|_{L^2}^2 $$

  1. 唯一性:如果子空间中存在某个元素 $g \in V_N$实现了相同的最小误差,即$|f - T_N|{L^2} = |f - g|{L^2}$,则该元素必然与傅里叶截断恒等:

$$ \Longrightarrow T_N = g \quad (\text{在 } V \text{ 中}) $$

核心推导:正交分解与误差恒等式

1. 巧妙引入中间项(构造动机)

为了比较任意逼近函数 $g$与最佳逼近项$T_N$的优劣,我们需要计算任意误差$|f - g|_{L^2}^2$。直接计算无法显现出 $T_N$的特殊地位,因此我们在内积内部巧妙地插入$T_N$ 作为桥梁

$$ \|f - g\|_{L^2}^2 = \langle f - g, f - g \rangle = \langle (f - T_N) + (T_N - g), (f - T_N) + (T_N - g) \rangle $$

2. 利用内积的双线性展开

根据内积的分配律,将上式完全展开为四项,并合并同类项:

$$ \|f - g\|_{L^2}^2 = \langle f - T_N, f - T_N \rangle + \langle T_N - g, T_N - g \rangle + 2\langle f - T_N, T_N - g \rangle $$

利用模长的定义,前两项可以写为模长的平方:

$$ \|f - g\|_{L^2}^2 = \|f - T_N\|_{L^2}^2 + \|T_N - g\|_{L^2}^2 + 2\langle f - T_N, T_N - g \rangle $$

3. 交叉项的消除(几何投影的代数体现)

现在审视交叉项 $2\langle f - T_N, T_N - g \rangle$。

  • 依据前文的正交投影引理,误差向量 $f - T_N$垂直于整个子空间$V_N$。

  • 因为 $T_N \in V_N$且$g \in V_N$,根据子空间对减法的封闭性,它们的差向量也必然属于该子空间:$(T_N - g) \in V_N$。

因此,根据正交性,该内积严格为 $0$:

$$ \langle f - T_N, \underline{T_N - g}_{\in V_N} \rangle = 0 $$

交叉项被成功“划掉”后,我们得到了极其优美的误差恒等式

$$ \|f - g\|_{L^2}^2 = \|f - T_N\|_{L^2}^2 + \|T_N - g\|_{L^2}^2 $$

定理的逻辑闭环证明

有了上述恒等式,定理的两个部分便不证自明:

  1. 最佳逼近的证明

    因为模长的平方具有非负性,即 $|T_N - g|_{L^2}^2 \ge 0$,所以从恒等式中移去该项后必然满足不等式:

$$ \|f - g\|_{L^2}^2 \ge \|f - T_N\|_{L^2}^2 $$

这表明任意非傅里叶截断的函数 $g$带来的误差,都大于或等于$T_N$带来的误差。即$T_N$ 实现了误差的最小值。

  1. 唯一性的证明

    若存在一个 $g$使得等号成立,即$|f - g|{L^2}^2 = |f - T_N|{L^2}^2$,代入恒等式中:

$$ \|f - T_N\|_{L^2}^2 = \|f - T_N\|_{L^2}^2 + \|T_N - g\|_{L^2}^2 \Longrightarrow \|T_N - g\|_{L^2}^2 = 0 $$

根据模长的正定性(只有零向量的模长才为 $0$),这意味着:

$$ T_N - g = 0 \Longrightarrow T_N = g $$

最终结论:在线性空间 $V_N$中,傅里叶级数截断项$T_N$是唯一能够将均方误差降至最低的最佳逼近函数。任何其他尝试(改变系数或组合)都必然会引入一个额外的正误差项$|T_N - g|_{L^2}^2$,导致逼近效果变差。

核心定理:贝塞尔不等式(Bessel’s Inequality)

在平方可积函数空间 $L^2[-\pi, \pi]$中,设$f(x)$对应的傅里叶级数前$N$项截断项为$T_N(x)$。贝塞尔不等式的宏观几何形式极其简洁,它表明子空间投影的能量(模长平方)永远不会超过原函数的总能量:

$$ \|T_N\|_{L^2}^2 \le \|f\|_{L^2}^2, \quad \forall N $$

详细代数推导过程

1. 展开式的内积表示

根据 $L^2$空间中标准规范内积的定义,我们将上述宏观不等式的左右两侧写成定义域$[-\pi, \pi]$ 上的积分形式。

  • 右侧原函数的总能量为:

$$ \|f\|_{L^2}^2 = \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx $$

  • 左侧截断项 $T_N(x)$ 的能量为:

$$ \|T_N\|_{L^2}^2 = \frac{1}{\pi} \int_{-\pi}^\pi (T_N(x))^2 \, dx $$

2. 代入傅里叶截断多项式

将 $T_N(x) = \frac{a_0}{2} + \sum_{n=1}^N (a_n \cos(nx) + b_n \sin(nx))$ 代入左侧积分中:

$$ \|T_N\|_{L^2}^2 = \frac{1}{\pi} \int_{-\pi}^\pi \left( \frac{a_0}{2} + \sum_{n=1}^N \left(a_n \cos(nx) + b_n \sin(nx)\right) \right)^2 \, dx $$

3. 利用三角函数系的正交性化简

当我们将上述级数的平方完全展开时,会产生大量的交叉项(如 $\cos(nx)\sin(mx)$,$\cos(nx)\cos(mx)$其中$n \neq m$)。由于三角函数系在 $[-\pi, \pi]$上具有标准正交性,所有不同频率的交叉项积分结果全部严格为$0$。

最终,积分式中仅留下各项自身的平方项,即:

  • 常数项:$\frac{1}{\pi} \int_{-\pi}^\pi \left(\frac{a_0}{2}\right)^2 , dx = \frac{1}{\pi} \cdot \frac{a_0^2}{4} \cdot 2\pi = \frac{a_0^2}{2}$

  • 余弦项:$\frac{1}{\pi} \int_{-\pi}^\pi a_n^2 \cos^2(nx) , dx = a_n^2$

  • 正弦项:$\frac{1}{\pi} \int_{-\pi}^\pi b_n^2 \sin^2(nx) , dx = b_n^2$

将这些非零积分项求和,我们得到了截断项能量的离散代数精确表达式:

$$ \|T_N\|_{L^2}^2 = \frac{a_0^2}{2} + \sum_{n=1}^N (a_n^2 + b_n^2) $$

4. 导出 Bessel 不等式

由于几何上已知 $|T_N|{L^2}^2 \le |f|{L^2}^2$,我们将化简后的代数结果直接代入,即导出了 Bessel 不等式的经典代数形式

$$ \frac{a_0^2}{2} + \sum_{n=1}^N (a_n^2 + b_n^2) \le \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx $$

核心推论:傅里叶级数的收敛性

推论(级数收敛性)

若 $f \in L^2[-\pi, \pi]$(即 $f$的平方积分有限),当截断项数$N \to \infty$ 时,其傅里叶系数构成的无穷级数必然收敛

$$ \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) < +\infty $$

动机与逻辑支撑

因为对于任意有限的 $N$,正项级数的部分和 $\frac{a_0^2}{2} + \sum_{n=1}^N (a_n^2 + b_n^2)$都被一个与$N$无关的常数(即原函数的积分$|f|_{L^2}^2$)牢牢压住(单调有界),根据数学分析中的单调有界原理,该正项级数在 $N \to \infty$ 时必然收敛。

这从根本上保证了,只要原函数能量有限,其拆解出的各阶谐波分量的能量总和就绝不会发散。

向极限制过渡:帕塞瓦尔等式(Parseval’s Identity)

在宏观极限下,我们进一步审视级数的能量分布:

当 $N \to \infty$时,如果三角函数基底在空间中满足完备性(即空间中没有任何非零向量能够同时垂直于所有的基向量,逼近误差$|f - T_N|_{L^2} \to 0$),那么上述 Bessel 不等式中的“小于等于号”将严格蜕变为“等号”:

$$ \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) = \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx $$

帕塞瓦尔定理

若三角函数基底具有完备性,则对任意平方可积函数 $f \in V$,其误差向量的模长在无穷维极限下必然收敛于 $0$:

$$ \lim_{N \to \infty} \|f - S_N\|_{L^2}^2 = 0, \quad \forall f \in V $$

此时等号严格成立,能量完全守恒:

$$ \|S\|_{L^2}^2 = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) = \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx $$

1. 核心动机与几何起点

在线性空间中,根据正交投影的代数恒等式,对于任意项数 $N$,函数 $f$ 的总能量(模长平方)都可以严格分解为“投影项能量”与“残差项能量”之和(即高维勾股定理):

$$ \|f\|_{L^2}^2 = \|T_N\|_{L^2}^2 + \|f - T_N\|_{L^2}^2 $$

将具体的代数形式代入,上式等价于:

$$ \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx = \left( \frac{a_0^2}{2} + \sum_{n=1}^N (a_n^2 + b_n^2) \right) + \|f - T_N\|_{L^2}^2 $$

2. 极限逼近与完备性假设(极限制的跨越)

现在,我们让截断的项数趋于无穷大,即 $N \to \infty$。

此时需要引入希尔伯特空间中三角函数系的完备性(Completeness)(或称逼近中的均方收敛性)。对于任何平方可积的函数 $f \in L^2[-\pi, \pi]$,随着谐波成分逐渐增加,残差项(即近似误差)在 $L^2$模长意义下必然趋于$0$:

$$ \lim_{N \to \infty} \|f - T_N\|_{L^2}^2 = 0 $$

这一性质的直观几何意义是:当基底的维度增长到无穷大时,子空间 $V_N$最终“铺满”了整个函数空间,使得原向量$f$与其在子空间上的投影之间的距离缩水为$0$。

3. 极限消除残差项

我们在能量分解恒等式的两边同时取 $N \to \infty$ 的极限:

$$ \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx = \lim_{N \to \infty} \left( \frac{a_0^2}{2} + \sum_{n=1}^N (a_n^2 + b_n^2) \right) + \lim_{N \to \infty} \|f - T_N\|_{L^2}^2 $$

由于右侧最后的残差极限为 $0$,该项被彻底消除。而中间的有限项求和则自然蜕变为无穷级数:

$$ \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) $$

这就是帕塞瓦尔等式

结论的物理重构

  • Bessel 不等式 揭示了部分信号的能量截断性质:你用有限个频率成分去拟合信号,得到的能量总和只能无限逼近、但绝不会超过原信号的总能量。

  • Parseval 等式 则是全频域能量守恒定律:当把所有从 $1$到$+\infty$ 频率的谐波能量全部累加起来时,频域的总能量(左侧)与时域的总能量(右侧)严格相等,没有任何能量在空间转换中丢失。

本篇笔记聚焦于帕塞瓦尔(Parseval)等式的完备性条件证明,并通过一个经典的方波函数(Square Wave)进行具体计算。最后,我们将见证纯粹的时域能量积分如何转化为频域的无穷级数,从而出人意料地导出一个著名的数论级数求和结果。

经典案例推导:方波函数的傅里叶级数与能量积分

1. 建立问题与动机

为了验证 Parseval 等式在实际计算中的威力,我们引入一个具有代表性的不连续周期函数——标准方波函数 $f(x)$。我们不仅要计算它的频域系数,还要通过时频两端的能量等价性,去求解一个高难度的数学分析级数和。

设 $f(x)$定义在$[-\pi, \pi]$ 上,具体分段形式为:

$$ f(x) = \begin{cases} 1, & x \in (0, \pi) \\ 0, & x = 0, \pi \\ -1, & x \in (-\pi, 0) \end{cases} $$

2. 傅里叶系数的代数计算

由于 $f(x)$ 是一个严格的奇函数(关于原点对称),根据积分的对称性,其所有余弦分量的投影分量必然全部消失:

$$ a_n = 0, \quad \forall n \ge 0 $$

接下来计算正弦分量 $b_n$ 的投影值:

$$ b_n = \frac{1}{\pi} \int_{-\pi}^\pi f(x) \sin(nx) \, dx = \frac{2}{\pi} \int_{0}^\pi 1 \cdot \sin(nx) \, dx = \frac{2}{\pi} \left[ -\frac{\cos(nx)}{n} \right]_{0}^\pi = \frac{2}{n\pi} (1 - (-1)^n) $$

分析 $1 - (-1)^n$ 的奇偶耦合特性:

  • 当 $n$ 为偶数($n=2k$)时,$b_{2k} = 0$。

  • 当 $n$ 为奇数($n=2k+1$)时,$b_{2k+1} = \frac{4}{(2k+1)\pi}$。

3. 时域总能量的积分

我们在时域端直接对 $f(x)^2$ 进行定积分,以获取该信号的总能量常数:

$$ \frac{1}{\pi} \int_{-\pi}^\pi f(x)^2 \, dx = \frac{1}{\pi} \left( \int_{-\pi}^0 (-1)^2 \, dx + \int_{0}^\pi 1^2 \, dx \right) = \frac{1}{\pi} (\pi + \pi) = 2 $$

运用 Parseval 等式进行级数求和的飞跃

步骤动机

傅里叶系数 $b_n$的模长平方和代表了频域的总能量。根据帕塞瓦尔定理,频域总能量必须与时域总能量严格相等(即等于$2$)。通过建立这个等式,我们可以将复杂的三角级数能量,转化为一个纯粹的数论级数。

详细推导

将 $a_n = 0$和$b_n$ 代入 Parseval 等式的左侧(频域级数部分):

$$ \sum_{n=1}^{+\infty} b_n^2 = \sum_{n=1}^{+\infty} \left[ \frac{2}{n\pi} (1 - (-1)^n) \right]^2 = \sum_{n=1}^{+\infty} \frac{4}{n^2\pi^2} (1 - (-1)^n)^2 $$

由于只有奇数项($n = 2k+1$)保留非零值,此时 $(1 - (-1)^n)^2 = 2^2 = 4$。我们将求和指标替换为奇数项指标 $k$(从 $0$到$+\infty$):

$$ \sum_{n=1}^{+\infty} b_n^2 = \sum_{k=0}^{+\infty} \frac{4}{(2k+1)^2\pi^2} \cdot 4 = \sum_{k=0}^{+\infty} \frac{16}{\pi^2 \cdot (2k+1)^2} $$

让频域总能量等于时域总能量 $2$:

$$ \sum_{k=0}^{+\infty} \frac{16}{\pi^2 \cdot (2k+1)^2} = 2 $$

两边同时乘以 $\frac{\pi^2}{16}$,移项孤立出未知的无穷级数:

$$ \sum_{k=0}^{+\infty} \frac{1}{(2k+1)^2} = 2 \cdot \frac{\pi^2}{16} = \frac{\pi^2}{8} $$

终极结论与数学之美

通过帕塞瓦尔等式的桥梁,我们成功证明了所有奇数倒数的平方和:

$$ 1 + \frac{1}{9} + \frac{1}{25} + \frac{1}{49} + \dots = \sum_{k=0}^{+\infty} \frac{1}{(2k+1)^2} = \frac{\pi^2}{8} $$

批判性评估

  • 优势(置信度评级:极高):方波函数虽然在 $x=0, \pm\pi$处具有不连续的跳跃点(会引发局部频域震荡的吉布斯现象),但它在$L^2$ 空间中是严格平方可积的。Parseval 等式从宏观积分能量的角度完美避开了局部不连续点的数学诘难,无需复杂的极限证明便直接锁定了级数的精确和。

  • 物理意义重构:该推导展现了希尔伯特空间的几何威力——原本时域中一个简单的方波信号,其能量在频域被拆解为了无限多个奇数倍频高谐波的能量叠加。两者的守恒关系不仅论证了完备性,还意外成为解决数论级数求和(巴塞尔问题变体)的强力代数工具。

奇函数的傅里叶展开与巴塞尔问题

面对形如 $\sum_{n=1}^{+\infty} \frac{1}{n^2}$的倒数平方和,直接在数论或离散代数里硬凑通常举步维艰。我们需要一个“桥梁”,将离散的整数$n$变成某种解析结构中的频率。傅里叶展开正是绝佳的选择,因为其基函数的系数在积分后往往会自然产生$1/n$或$1/n^2$ 的结构。

为了让级数中只出现正弦项(便于利用积分产生偶次方分母),我们首先构建一个周期为 $2\pi$的奇函数$f(x)$,其在初始周期内的定义为:

$$ f(x) = \begin{cases} \pi - x, & x \in (0, \pi) \\ 0, & x = 0, \pi \\ -\pi - x, & x \in (-\pi, 0) \end{cases} $$

由于 $f(x)$是严格的奇函数,其傅里叶系数中的直流分量与余弦项系数直接归零,即$a_0 = 0$且$a_n = 0$。我们只需要专注于正弦系数 $b_n$ 的提取:

$$ b_n = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x) \sin(nx) \, dx = \frac{2}{\pi} \int_{0}^{\pi} (\pi - x) \sin(nx) \, dx $$

利用分部积分法(Integration by parts)来剥离 $x$的多项式结构。设$u = \pi - x \implies du = -dx$,且 $dv = \sin(nx)dx \implies v = -\frac{1}{n}\cos(nx)$:

$$ b_n = \frac{2}{\pi} \left[ -\frac{1}{n}(\pi - x)\cos(nx) \right]_0^{\pi} - \frac{2}{\pi} \int_{0}^{\pi} \frac{1}{n}\cos(nx) \, dx $$

代入上下限后,第一项在 $\pi$处为$0$,在 $0$处贡献了$\frac{2}{n}$;而第二项在区间 $[0, \pi]$上对余弦函数积分,结果显然为$0$。因此,我们得到了极其干净的系数:

$$ b_n = \frac{2}{n} $$

此时,如果我们直接写出 $f(x)$的傅里叶级数,会得到$\sum \frac{2}{n}\sin(nx)$。但这只能用来计算交错级数。为了得到纯粹的 $\frac{1}{n^2}$,我们需要引入帕塞瓦尔定理(Parseval’s identity)。其物理本质是信号在时域的有限能量等于其在频域的能量总和。对于奇函数,该定理表现为:

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} |f(x)|^2 \, dx = \sum_{n=1}^{+\infty} b_n^2 $$

我们将已知的 $b_n$和$f(x)$ 代入该等式。左侧的能量积分由于对称性可以化简为单侧:

$$ \sum_{n=1}^{+\infty} \left(\frac{2}{n}\right)^2 = \frac{2}{\pi} \int_{0}^{\pi} (\pi - x)^2 \, dx $$

对右侧进行直接积分:

$$ \frac{2}{\pi} \left[ -\frac{1}{3}(\pi - x)^3 \right]_0^{\pi} = \frac{2}{3\pi} \cdot \pi^3 = \frac{2}{3}\pi^2 $$

两端同时展开与整理:

$$ \sum_{n=1}^{+\infty} \frac{4}{n^2} = \frac{2}{3}\pi^2 \implies \mathbf{\sum_{n=1}^{+\infty} \frac{1}{n^2} = \frac{\pi^2}{6}} $$

至此,通过奇函数的能量守恒,巴塞尔问题得到了完美的证明。

偶函数的对称跃迁与高阶级数

上面的尝试让我们尝到了甜头:函数的自乘积分(平方)让原本分母上的 $n$变成了$n^2$。如果我们需要计算更高阶的级数,比如 $\sum_{n=1}^{+\infty} \frac{1}{n^4}$,一种直观的动机就是提升函数的齐次幂次,使得傅里叶系数在基础阶段就带有 $1/n^2$的特征,这样经过帕塞瓦尔定理的平方后,就能自然催生出$1/n^4$。

为此,我们重新构建一个偶函数 $f(x)$(将其在图形上表现为一个平滑的“山峰”状对称曲线):

$$ f(x) = \begin{cases} (\pi - x)^2, & x \in [0, \pi] \\ (\pi + x)^2, & x \in [-\pi, 0) \end{cases} $$

由于是偶函数,正弦项系数 $b_n = 0$。我们重点计算直流分量 $a_0$与余弦项系数$a_n$。首先是均值(直流分量):

$$ a_0 = \frac{2}{\pi} \int_{0}^{\pi} (\pi - x)^2 \, dx = \frac{2}{\pi} \cdot \frac{\pi^3}{3} = \frac{2}{3}\pi^2 $$

接着计算交流系数 $a_n$。同样使用分部积分法,对 $(\pi - x)^2 \cos(nx)$ 进行两次连续的剥离:

$$ a_n = \frac{2}{\pi} \int_{0}^{\pi} (\pi - x)^2 \cos(nx) \, dx $$

第一次分部积分后,一次幂项在边界消失,留下正弦积分;第二次分部积分则将正弦转回余弦,并在分母上累积了 $n^2$。经过精细的上下限带入,我们得到:

$$ a_n = \frac{4}{n^2} $$

这正符合我们的预期:傅里叶系数的基础形态已经是 $\frac{1}{n^2}$ 了。现在,再次调用通用的帕塞瓦尔定理。注意,此时包含直流分量,其完整形式为:

$$ \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} a_n^2 = \frac{1}{\pi} \int_{-\pi}^{\pi} |f(x)|^2 \, dx $$

将得到的系数与函数式代入左端与右端:

$$ \frac{1}{2}\left(\frac{2}{3}\pi^2\right)^2 + \sum_{n=1}^{+\infty} \left(\frac{4}{n^2}\right)^2 = \frac{2}{\pi} \int_{0}^{\pi} (\pi - x)^4 \, dx $$

分别对两边进行算术展开与定积分计算:

$$ \frac{2}{9}\pi^4 + \sum_{n=1}^{+\infty} \frac{16}{n^4} = \frac{2}{\pi} \left[ -\frac{1}{5}(\pi - x)^5 \right]_0^{\pi} = \frac{2}{5}\pi^4 $$

现在,我们移项并分离核心级数:

$$ \sum_{n=1}^{+\infty} \frac{16}{n^4} = \frac{2}{5}\pi^4 - \frac{2}{9}\pi^4 = \frac{8}{45}\pi^4 $$

两边同除以 $16$,高阶欧拉级数的经典结论优雅浮现:

$$ \mathbf{\sum_{n=1}^{+\infty} \frac{1}{n^4} = \frac{\pi^4}{90}} $$

纵深思考与外推

这种基于几何对称性与解析延拓(Analytic continuation)的工具展现了惊人的威力。通过对特定多项式边界的级数构造,我们实际上建立了一种通用范式:

  • 更高级数的求解路径:如果我们需要解决 $\sum_{n=1}^{+\infty} \frac{1}{n^6}$,其动机会逼迫我们去寻找一个傅里叶系数为 $a_n = \frac{C}{n^3}$的函数。由于每次分部积分都会在分母上挂一个$n$,这意味着我们需要构造一个原函数,使其在完成三次分部积分后才能完全消去 $x$的多项式结构——也就是说,我们需要从一个三次幂的函数$f(x) = (\pi - x)^3$(并作适当的奇偶延拓)出发,通过帕塞瓦尔定理即可在平方后得到分母为 $n^6$ 的离散和。

傅里叶分析在此处将复杂的数论级数变成了一种可以线性外推的分析学游戏。

傅里叶级数中的内积空间与帕塞瓦尔定理证明

在经典微积分中,帕塞瓦尔定理通常被视为一种纯粹的微积分积分恒等式。然而,如果我们将其放入希尔伯特空间(Hilbert Space)的框架下,该定理的本质不过是欧几里得空间中“勾股定理”或“向量模长平方等于各分量平方和”在无穷维函数空间中的自然延伸。

1. 结构构造:定义函数空间的内积

设 $V$是定义在周期区间$[-\pi, \pi]$ 上的平方可积函数空间。为了度量两个函数之间的“夹角”与“投影”,我们定义内积(Inner Product)如下:

$$ \langle f, g \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)g(x) \, dx $$

在这种内积定义下,三角函数族 ${1/\sqrt{2}, \cos(nx), \sin(nx)}$ 恰好构成了该空间的一组标准正交基(Orthogonal Basis)。

假设函数 $f, g \in V$ 的傅里叶展开式分别为:

$$ f(x) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} (a_n \cos(nx) + b_n \sin(nx)) $$

$$ g(x) \sim \frac{c_0}{2} + \sum_{n=1}^{+\infty} (c_n \cos(nx) + d_n \sin(nx)) $$

由标准正交基的性质,两个函数的内积可以直接转化为其傅里叶系数的离散代数和(类似于几何向量的坐标内积):

$$ \langle f, g \rangle = \frac{a_0 c_0}{2} + \sum_{n=1}^{+\infty} (a_n c_n + b_n d_n) $$

2. 动机与推导:从线性扩张到帕塞瓦尔定理

我们的目标是证明当 $f = g$时,上述内积关系能够完美契合能量守恒。为了从代数上严格导出该结论,我们考察向量(函数)和$f+g$ 的内积。

依据内积的双线性(Bilinearity)对称性,我们有:

$$ \langle f+g, f+g \rangle = \langle f, f \rangle + \langle g, g \rangle + 2\langle f, g \rangle $$

这是一个纯粹的代数恒等式。接下来,我们将 $f+g$ 的对应傅里叶系数直接带入内积的系数表示法中。显然,$f+g$的各阶系数为$(a_n + c_n)$和$(b_n + d_n)$。于是左侧可以写为:

$$ \langle f+g, f+g \rangle = \frac{(a_0 + c_0)^2}{2} + \sum_{n=1}^{+\infty} \left[ (a_n + c_n)^2 + (b_n + d_n)^2 \right] $$

同时,右侧的 $\langle f, f \rangle$与$\langle g, g \rangle$ 也可以写成对应的平方和形式:

$$ \langle f, f \rangle = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) $$

$$ \langle g, g \rangle = \frac{c_0^2}{2} + \sum_{n=1}^{+\infty} (c_n^2 + d_n^2) $$

将这些显式表达代入最初的代数恒等式中,展开左侧的完全平方式:

$$ \frac{a_0^2 + 2a_0c_0 + c_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + 2a_ncc_n + c_n^2 + b_n^2 + 2b_nd_n + d_n^2) $$

消去两端相同的自乘项 $\frac{a_0^2}{2}, \frac{c_0^2}{2}, a_n^2, c_n^2, b_n^2, d_n^2$,中间的交叉项 $\frac{2a_0c_0}{2}$与$2a_nc_n, 2b_nd_n$提取出系数$2$后,正好与右端的$2\langle f, g \rangle$ 完美对齐:

$$ \frac{(a_n+c_n)^2 - a_n^2 - c_n^2}{2} = a_n c_n $$

当我们在空间中令 $g = f$时(即坐标完全重合),所有的$c_n = a_n$且$d_n = b_n$,上述关系自然退化为:

$$ \langle f, f \rangle = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) $$

还原为具体的积分表达,即完成了帕塞瓦尔定理的通用证明:

$$ \frac{1}{\pi} \int_{-\pi}^{\pi} |f(x)|^2 \, dx = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} (a_n^2 + b_n^2) $$

傅里叶级数逐项积分的代数本质:测试函数的构造

在分析学中,对一个无穷级数进行局部区间 $[\alpha, \beta]$的逐项积分$\int_{\alpha}^{\beta} f(x) , dx$,通常需要严格论证级数的一致收敛性(Uniform Convergence)。然而,借助刚刚建立的内积框架,我们可以绕过繁琐的分析学收敛性大棒,通过构造一个特定的“测试函数”,将复杂的区间积分运算,精妙地转化为内积空间中的代数投影。

1. 动机:如何用内积表达局部区间积分?

我们希望计算的表达式为:

$$ \int_{\alpha}^{\beta} f(x) \, dx \quad (\text{其中 } [ \alpha, \beta ] \subset [-\pi, \pi]) $$

注意到现有的内积工具 $\langle f, g \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)g(x) , dx$是在整个$[-\pi, \pi]$区间上进行积分的。为了把整个区间的积分“裁剪”成局部区间的积分,我们需要构造一个在$[\alpha, \beta]$内部为$1$,在区间外部为 $0$的示性函数(Indicator Function)作为测试函数$g(x)$。

2. 构造测试函数 $g(x)$定义测试函数$g(x)$ 如下:

$$ g(x) = \begin{cases} 1, & x \in [\alpha, \beta] \\ 0, & x \in [-\pi, \pi] \setminus [\alpha, \beta] \end{cases} $$

此时,由于 $g(x)$在区间外的截断特性,$f$与$g$ 的内积会发生如下变换:

$$ \langle f, g \rangle = \frac{1}{\pi} \int_{-\pi}^{\pi} f(x)g(x) \, dx = \frac{1}{\pi} \int_{\alpha}^{\beta} f(x) \cdot 1 \, dx $$

也就是说:

$$ \int_{\alpha}^{\beta} f(x) \, dx = \pi \langle f, g \rangle $$

3. 计算测试函数 $g(x)$ 的傅里叶坐标

既然局部积分等价于 $\pi \langle f, g \rangle$,而内积又可以通过两个函数的傅里叶系数代数和求得,我们接下来只需要算出这个人工构造的 $g(x)$的傅里叶系数$c_0, c_n, d_n$:

  • 直流分量 $c_0$

$$ c_0 = \frac{1}{\pi} \int_{-\pi}^{\pi} g(x) \, dx = \frac{1}{\pi} \int_{\alpha}^{\beta} 1 \, dx = \frac{\beta - \alpha}{\pi} $$

  • 余弦项系数 $c_n$

$$ c_n = \frac{1}{\pi} \int_{-\pi}^{\pi} g(x) \cos(nx) \, dx = \frac{1}{\pi} \int_{\alpha}^{\beta} \cos(nx) \, dx $$

  • 正弦项系数 $d_n$

$$ d_n = \frac{1}{\pi} \int_{-\pi}^{\pi} g(x) \sin(nx) \, dx = \frac{1}{\pi} \int_{\alpha}^{\beta} \sin(nx) \, dx $$

4. 代数统合与最终推导

现在,我们将 $f$的已知系数$(a_0, a_n, b_n)$与$g$的新系数$(c_0, c_n, d_n)$ 共同带入内积坐标公式中:

$$ \frac{1}{\pi} \int_{\alpha}^{\beta} f(x) \, dx = \langle f, g \rangle = \frac{a_0 c_0}{2} + \sum_{n=1}^{+\infty} (a_n c_n + b_n d_n) $$

将等式两边同时乘以 $\pi$,并把 $c_0, c_n, d_n$ 具体的积分定义式原封不动地代回右侧:

$$ \int_{\alpha}^{\beta} f(x) \, dx = \frac{a_0}{2} \cdot \pi c_0 + \sum_{n=1}^{+\infty} \left( a_n \cdot \pi c_n + b_n \cdot \pi d_n \right) $$

$$ \int_{\alpha}^{\beta} f(x) \, dx = \frac{a_0}{2} \int_{\alpha}^{\beta} 1 \, dx + \sum_{n=1}^{+\infty} \left( a_n \int_{\alpha}^{\beta} \cos(nx) \, dx + b_n \int_{\alpha}^{\beta} \sin(nx) \, dx \right) $$

利用积分的线性性质,将求和号与系数移入积分号内部:

$$ \int_{\alpha}^{\beta} f(x) \, dx = \int_{\alpha}^{\beta} \left\{ \frac{a_0}{2} + \sum_{n=1}^{+\infty} \left[ a_n \cos(nx) + b_n \sin(nx) \right] \right\} \, dx $$

结论:这个最终形态在形式上正是对 $f(x)$的傅里叶级数表达式在$[\alpha, \beta]$ 区间上进行了逐项积分

通过构造测试函数 $g(x)$并借由内积空间转译,我们证明了:只要函数$f(x)$ 平方可积,其傅里叶级数在任意子区间上的逐项积分不仅完全合法,而且天然收敛。 这一巧妙的代数处理不仅避开了逐项求导时对平滑性的苛刻要求,也揭示了现代泛函分析在经典调和分析中的威力。

之前我们证明了逐项积分的优良性质,但当面对“傅里叶级数的部分和 $S_n(x)$是否收敛于原函数$f(x)$”这一根本问题时,我们需要从局部收敛(点点收敛)跨越到全局收敛(一致收敛)

下面我们将通过引入导函数的能量约束,利用柯西-施瓦茨不等式(Cauchy-Schwarz inequality),严格证明傅里叶级数的一致收敛定理。

核心定理与动机

在数学分析中,一个函数项级数如果能一致收敛(Uniform Convergence),就意味着它能保持原函数的连续性,且能保证极限与积分/求导号的交换律。为了让傅里叶级数 $S_n(x) \rightrightarrows f(x)$在整个区间上一致收敛,仅要求$f(x)$ 连续是不够的,我们需要对函数的“粗糙度”进行限制。

定理陈述

设 $f \in V$是定义在$[-\pi, \pi]$上的连续函数(且满足周期边界条件$f(-\pi) = f(\pi)$)。若其导函数 $f’$满足平方可积(即$f’ \in V$,$\frac{1}{\pi}\int_{-\pi}^{\pi} |f’(x)|^2 , dx < +\infty$),则 $f(x)$的傅里叶级数$S_n(x)$在$[-\pi, \pi]$上一致收敛于$f(x)$。

代数动机

要想证明一个三角级数一致收敛,最强有力的工具是 魏尔斯特拉斯判别法(M-判别法)。如果我们可以证明各项系数的绝对值之和是收敛的,即:

$$ \sum_{n=1}^{+\infty} (|a_n| + |b_n|) < +\infty $$

那么由于 $|\a_n \cos(nx) + b_n \sin(nx)| \le |a_n| + |b_n|$,级数的一致收敛性便可直接宣告成立。因此,我们的核心代数动机就是去界定并放大系数级数 $\sum (|a_n| + |b_n|)$

严密推导过程

1. 导函数的傅里叶系数表达

假设 $f(x)$ 的傅里叶展开为:

$$ f(x) \sim \frac{a_0}{2} + \sum_{n=1}^{+\infty} (a_n \cos(nx) + b_n \sin(nx)) $$

我们对 $f(x)$进行形式上的逐项求导,设$f’(x)$的傅里叶系数为$a_n^{(1)}$和$b_n^{(1)}$:

$$ f'(x) \sim \sum_{n=1}^{+\infty} (-n a_n \sin(nx) + n b_n \cos(nx)) $$

通过直接对照或者分部积分法,我们可以精确建立 $f’$的系数与$f$ 的系数之间的代数纽带:

$$ a_n^{(1)} = n b_n, \quad b_n^{(1)} = -n a_n $$

2. 引入导函数的帕塞瓦尔恒等式

由于定理给出了条件 $f’ \in V$(平方可积),我们可以对 $f’$ 施加帕塞瓦尔定理:

$$ \sum_{n=1}^{+\infty} \left[ (a_n^{(1)})^2 + (b_n^{(1)})^2 \right] = \frac{1}{\pi} \int_{-\pi}^{\pi} |f'(x)|^2 \, dx < +\infty $$

将第 1 步的纽带关系代入左侧,得到:

$$ \sum_{n=1}^{+\infty} \left[ (n b_n)^2 + (-n a_n)^2 \right] = \sum_{n=1}^{+\infty} n^2 (a_n^2 + b_n^2) = \frac{1}{\pi} \int_{-\pi}^{\pi} |f'(x)|^2 \, dx $$

这个式子非常关键,它说明只要导函数的能量有限,原函数的傅里叶系数 $(a_n, b_n)$在乘上权重$n$ 之后,其平方和依然是收敛的。

3. 利用柯西-施瓦茨不等式进行解耦

现在我们回到核心动机:计算 $\sum_{n=1}^{+\infty} (|a_n| + |b_n|)$。

直接观察这个级数很难与其高阶的 $n^2(a_n^2 + b_n^2)$产生联系。为此,我们引入一类经典的代数解耦技巧——在各项中同时乘以$n$并除以$n$

$$ \sum_{n=1}^{+\infty} (|a_n| + |b_n|) = \sum_{n=1}^{+\infty} \frac{1}{n} \cdot \left( n|a_n| + n|b_n| \right) $$

在无穷维空间中,利用离散形式的柯西-施瓦茨不等式($\sum x_y \le \sqrt{\sum x^2} \sqrt{\sum y^2}$),将上述级数拆解为两个独立级数乘积的平方根:

$$ \sum_{n=1}^{+\infty} \frac{1}{n} \left( n|a_n| + n|b_n| \right) \le \left( \sum_{n=1}^{+\infty} \frac{1}{n^2} \right)^{\frac{1}{2}} \cdot \left( \sum_{n=1}^{+\infty} (n|a_n| + n|b_n|)^2 \right)^{\frac{1}{2}} $$

4. 算术放大与最终约束

我们对右侧的第二项(即包含系数的部分)应用基本的二元均值不等式或简单的放大关系 $(|u|+|v|)^2 \le 2(u^2 + v^2)$:

$$ (n|a_n| + n|b_n|)^2 = n^2 (|a_n| + |b_n|)^2 \le 2n^2 (a_n^2 + b_n^2) $$

将其整体代回不等式中:

$$ \sum_{n=1}^{+\infty} (|a_n| + |b_n|) \le \left( \sum_{n=1}^{+\infty} \frac{1}{n^2} \right)^{\frac{1}{2}} \cdot \left( \sum_{n=1}^{+\infty} 2n^2 (a_n^2 + b_n^2) \right)^{\frac{1}{2}} $$

此时,奇迹发生了:

  • 第一项是经典的巴塞尔级数,我们已知其收敛值为 $\frac{\pi^2}{6}$。

  • 第二项内部的 $\sum n^2(a_n^2+b_n^2)$正好是我们在第 2 步中通过$f’$ 的帕塞瓦尔定理算出的定积分。

将这两部分确定有限的值代入:

$$ \sum_{n=1}^{+\infty} (|a_n| + |b_n|) \le \left( \frac{\pi^2}{6} \right)^{\frac{1}{2}} \cdot \left( \frac{2}{\pi} \int_{-\pi}^{\pi} |f'(x)|^2 \, dx \right)^{\frac{1}{2}} < +\infty $$

由于右侧两项均为确定有限的实数,我们成功证明了 $\sum_{n=1}^{+\infty} (|a_n| + |b_n|)$ 的绝对收敛性

结论与魏尔斯特拉斯判别

令 $U_n(x) = a_n \cos(nx) + b_n \sin(nx)$ 为傅里叶级数的每一项。显然:

$$ |U_n(x)| \le |a_n| \cdot 1 + |b_n| \cdot 1 = |a_n| + |b_n| = M_n $$

因为我们刚刚证明了常数级数 $\sum M_n = \sum (|a_n| + |b_n|)$收敛,根据 魏尔斯特拉斯 M-判别法(Weierstrass M-test),傅里叶级数的部分和$S_n(x)$必然在整个区间$[-\pi, \pi]$ 上一致收敛

再结合之前建立的逐项积分性质或连续性定理,我们最终确认其一致收敛的极限函数只能是原函数 $f(x)$ 本身:

$$ S_n(x) \rightrightarrows f(x), \quad x \in [-\pi, \pi] $$

纵深总结

该证明展现了数学分析中“光滑度”与“收敛速度”的深刻对偶:导函数的能量有限(即原函数足够平滑),直接锁定了其傅里叶系数以高于 $1/n$ 的速度快速衰减。 这种快速衰减压制了三角基函数的波动,最终编织出了一致收敛的完美结果。

帕塞瓦尔等式的严格证明(逼近与稠密性视角)

在前面的讨论中,我们知道帕塞瓦尔等式在代数形式上等价于傅里叶部分和 $S_n$在$L^2$ 模长下的均方收敛,即目标是证明:

$$ \lim_{N \to \infty} \|f - S_N\|_{L^2}^2 = 0 \quad (\forall f \in V) $$

然而,由于 $L^2$ 空间中的函数可能存在间断点甚至非常粗糙,我们无法直接断言其傅里叶级数一致收敛。这里的核心动机是利用空间稠密性(Density):用足够漂亮的“光滑函数”去逼近粗糙的函数,再利用最佳逼近性质将误差传递给部分和。

1. 动机与核心引理:通过 $C^1$ 函数进行误差控制

依据测度论与泛函分析的结论,连续可微函数空间 $C^1[-\pi, \pi]$在平方可积空间$L^2[-\pi, \pi]$中是稠密的。这意味着,对于任意给定的粗糙函数$f \in V$和任意小的误差限$\varepsilon > 0$,我们总能找到一个高度光滑的基准测试函数 $g \in C^1[-\pi, \pi]$,使得它们之间的距离足够小:

$$ \|f - g\|_{L^2} < \varepsilon $$

2. 利用最佳逼近性质完成误差传递

设 $T_N$是测试函数$g(x)$在三角多项式子空间$V_N$上的傅里叶部分和(即投影)。由于$g \in C^1$,满足上一节的一致收敛定理,因此当 $N \to \infty$ 时,$T_N \rightrightarrows g$(一致收敛)。

一旦一致收敛,由控制收敛定理,其 $L^2$模长自然收敛。即存在足够大的$N$,使得:

$$ \|g - T_N\|_{L^2}^2 = \frac{1}{\pi}\int_{-\pi}^{\pi} |g(x) - T_N(x)|^2 \, dx \le \frac{1}{\pi} \cdot 2\pi \cdot \varepsilon^2 = 2\varepsilon^2 \implies \|g - T_N\|_{L^2} \le \sqrt{2}\varepsilon $$

现在我们来考察原函数 $f$与其自身的傅里叶部分和$S_N$ 的距离。根据希尔伯特空间中正交投影的最佳逼近性质(Best Approximation Property),$S_N$是子空间$V_N$中距离$f$最近的元素。因此,空间中任何其他$V_N$内的三角多项式(包括$g$的部分和$T_N$)到 $f$的距离,都必然大于等于$S_N$到$f$ 的距离:

$$ \|f - S_N\|_{L^2} \le \|f - T_N\|_{L^2} $$

利用三角不等式对右侧进行强行拆分,插入测试函数 $g$ 作为中转桥梁:

$$ \|f - T_N\|_{L^2} = \|(f - g) + (g - T_N)\|_{L^2} \le \|f - g\|_{L^2} + \|g - T_N\|_{L^2} $$

代入前两步的误差控制范围:

$$ \|f - S_N\|_{L^2} \le \varepsilon + \sqrt{2}\varepsilon = (1+\sqrt{2})\varepsilon = C \cdot \varepsilon $$

由于 $\varepsilon$具有任意性,当$N \to \infty$时,误差边界被逼近至$0$。至此,通过“$L^2 \leftarrow C^1 \leftarrow \text{一致收敛的 } T_N$”的逼近链条,我们严格证明了帕塞瓦尔等式对一切平方可积函数均成立。

函数高阶光滑性与傅里叶系数的定量衰减

证明了逼近的可行性后,我们进一步定量探讨:如果一个函数不仅有一阶导数,而是拥有 $m$阶导数,它的傅里叶系数会以怎样的速度向$0$ 隐退? 在信号处理中,高频分量的衰减速度直接对应了信号的平滑程度。我们可以通过高阶求导将这种关系精确量化。

1. $m$ 阶导数的傅里叶系数退化

假设 $f \in V$,且其直到 $m$阶的导数均在$[-\pi, \pi]$上连续且满足周期性边界条件,即$f^{(m)} \in V$。

通过对积分式连续进行 $m$次分部积分(每次分部积分都会因求导将内部的$n$提取到外面,并伴随正余弦项的互换与正负号交替),我们可以建立$f^{(m)}$的傅里叶系数$(a_n^{(m)}, b_n^{(m)})$与原函数系数$(a_n, b_n)$ 的精准对偶关系:

  • 当 $m$ 为偶数时

$$ a_n^{(m)} = (-1)^{\frac{m}{2}} n^m a_n, \quad b_n^{(m)} = (-1)^{\frac{m}{2}} n^m b_n $$

  • 当 $m$ 为奇数时

$$ a_n^{(m)} = (-1)^{\frac{m-1}{2}} n^m b_n, \quad b_n^{(m)} = (-1)^{\frac{m+1}{2}} n^m a_n $$

无论 $m$ 的奇偶性如何,将其系数平方求和时,正负号与三角函数的互换均被抹平,统一服从以下代数关系:

$$ (a_n^{(m)})^2 + (b_n^{(m)})^2 = n^{2m} (a_n^2 + b_n^2) $$

2. 系数衰减速度的级数约束

将上式变形,把原函数的傅里叶能量谱孤立出来:

$$ a_n^2 + b_n^2 = \frac{1}{n^{2m}} \left[ (a_n^{(m)})^2 + (b_n^{(m)})^2 \right] $$

因为 $f^{(m)} \in V$,由帕塞瓦尔定理,高阶导数系数的无穷级数必收敛:$\sum_{n=1}^{+\infty} [ (a_n^{(m)})^2 + (b_n^{(m)})^2 ] < +\infty$。根据级数收敛的必要条件,其通项当 $n \to \infty$时趋于$0$,即:

$$ (a_n^{(m)})^2 + (b_n^{(m)})^2 = o(1) $$

由此,我们立即锁定了原函数傅里叶系数模长的渐近线界:

$$ \sqrt{a_n^2 + b_n^2} = o\left( \frac{1}{n^m} \right) $$

物理与几何意义:函数的导数阶数 $m$越高,意味着图形越圆润、没有尖点或突变。反映在频域上,其高频系数以$1/n^m$的幂指数速度极其剧烈地向$0$ 衰减。

终极延拓:解析性与指数级衰减

如果我们将上述的光滑性推向极致——假设 $f(x)$ 在整个定义域内是无穷阶可导的($C^\infty$),甚至是在复平面上某个区域内满足柯西-黎曼方程的解析函数(Analytic Function)

此时,对于任意大的整数 $m$,上式中的衰减屏障 $1/n^m$均成立。为了满足对任意$m$ 都成立的约束,代数级数的内在逻辑会发生质的跃迁:系数的衰减速度将直接超越任何多项式倒数,从而演变为指数级衰减(Exponential Decay)

$$ a_n \longrightarrow C_1 e^{-nc}, \quad b_n \longrightarrow C_2 e^{-nc} \quad (c > 0) $$

  • 毛刺与锯齿(如方波、三角波):不可导或仅一阶可导,对应低阶的多项式衰减(分母为 $n$或$n^2$),频域上有长长的“高频尾巴”。

  • 极度平滑的无瑕曲线(如 $\sin x$ 或解析曲线):频域能量高度集中在极少数的低频项中,高频系数呈现断崖式的指数级消亡。这一结论不仅揭示了时域光滑度与频域集中度的完美对偶,也构成了现代谱方法(Spectral Methods)数值求解微分方程的理论根基。

经典案例剖析:几何撕裂与频域衰减的定量映射

当我们在时域对一个函数进行求导时,图形的几何特征(如间断点、尖角)会逐层暴露。每一次不连续性的出现,都会深刻影响其傅里叶系数的衰减速率。

案例一:具有第一类间断点的锯齿状奇函数

考察一个经典的非连续周期函数 $f(x)$,其在初始区间内的定义为:

$$ f(x) = \begin{cases} \pi - x, & x \in (0, \pi) \\ 0, & x = 0, \pi \\ -\pi - x, & x \in (-\pi, 0) \end{cases} $$

1. 时域求导分析与几何性质

从空间结构上看,$f(x)$ 在整个平方可积空间中是完备的($f \in V$)。然而,当我们在复平面或实数轴上对它进行一阶求导时:

$$ f'(x) = -1, \quad x \in (-\pi, \pi) \setminus \{0\} $$

在 $x = 0$和$x = \pm\pi$处,函数发生了阶跃型的跳跃(第一类间断点)。在这些跳跃点上,广义导数会直接催生出狄拉克$\delta$函数。由于$\delta$ 函数的平方积分发散,这意味着:

$$ f' \notin V \quad (\text{一阶导数脱离平方可积空间}) $$

2. 对应的频域衰减速度

因为在一阶求导时几何结构就已经“撕裂”(产生间断),其傅里叶系数不具备高阶衰减的条件。根据之前的计算,该函数的正弦系数为:

$$ b_n = \frac{2}{n} \sim O\left(\frac{1}{n}\right) $$

这验证了我们的规律:若函数本身包含不连续的跳跃边界,其傅里叶系数仅以 $1/n$ 的最慢速度衰减。

案例二:具有“尖点”连续的一阶平滑偶函数

为了延缓时域几何结构的破坏,我们提升幂次,考察如下偶函数:

$$ f(x) = \begin{cases} (\pi - x)^2, & x \in [0, \pi] \\ (\pi + x)^2, & x \in [-\pi, 0) \end{cases} $$

1. 时域求导分析与几何性质

  • 原函数 $f(x)$:在 $x=0$ 处,$(\pi-0)^2 = \pi^2$;在 $x=\pi$ 处,$(\pi-\pi)^2 = 0$。函数在整个实轴上是连续的,即 $f \in V$。

  • 一阶导函数 $f’(x)$:直接求导得到:

$$ f'(x) = \begin{cases} -2(\pi - x), & x \in (0, \pi) \\ 2(\pi + x), & x \in (-\pi, 0) \end{cases} $$

此时 $f’(x)$依然是连续的(在$x=0$处左右导数均为$-2\pi$和$2\pi$处的边界对称性)。因为$f’$ 连续且无间断,其能量有限:

$$ f' \in V $$

  • 二阶导函数 $f’’(x)$:对 $f’$ 再次求导:

$$ f''(x) = \begin{cases} 2, & x \in (0, \pi) \\ 2, & x \in (-\pi, 0) \end{cases} $$

表面上看起来在两侧都是常数 $2$,但在 $x=0$处,$f’(x)$的图形是一个尖角(类似于绝对值函数的翻转)。这意味着在一阶导数$f’$的图形中存在“尖点”,从而导致二阶导数$f’’$在$x=0$处发生阶跃型间断,甚至带有$\delta$ 函数分量。因此:

$$ f'' \notin V $$

2. 对应的频域衰减速度

由于几何结构的破坏被推迟到了二阶导数,该函数的傅里叶系数在基础阶段获得了更高的衰减动力。计算出的系数为:

$$ a_n = \frac{4}{n^2} \sim O\left(\frac{1}{n^2}\right) $$

这再次精准对齐:函数本身连续($f \in V$)且一阶导数平方可积($f’ \in V$),其频域系数衰减速度跃升至 $1/n^2$。

案例三:无限平滑的解析函数

如果我们考察形如 $f(x) = e^{\cos(x)}$ 的函数,它在整个复平面上都没有任何几何尖点或间断。

无论你对其求多少次导,所有的 $f^{(m)}$永远属于$V$。这种无限的光滑性使得频域分量以惊人的速度消亡。其系数的渐近线界超越了任何多项式倒数 $1/n^m$,而是呈现指数级断崖式衰减:

$$ a_n \sim \frac{1}{n!} \quad \text{或} \quad a_n \sim \frac{1}{2^n} $$

现代泛函延拓:索伯列夫空间与分数阶平滑度

在经典理论中,我们只能讨论一阶导数、二阶导数等整数阶导数是否平方可积。然而,有些函数的平滑度恰好介于“一阶导数平方可积”与“二阶导数平方可积”之间。为了实现对函数光滑度更精准的定量刻画,现代泛函分析引入了索伯列夫空间 $H^s$

其核心动机是:利用傅里叶系数的加权求和,将“时域的求导运算”完全等价地转译为“频域的代数加权”。

1. 从整数阶到分数阶的代数重构

回想一下,如果 $f$的$m$阶导数$f^{(m)}$ 平方可积,那么根据帕塞瓦尔定理,其对应的频域级数为:

$$ \sum_{n=1}^{+\infty} n^{2m} (a_n^2 + b_n^2) < +\infty $$

泛函分析提出了一个极其大胆且优雅的想法:为什么指数 $2m$ 必须是偶数或整数?

我们可以直接将这个指标推广到任意实数 $s \ge 0$,从而定义索伯列夫空间 $H^s$。我们定义一个新函数 $g(x)$,使其傅里叶系数带有分数阶权重 $n^s$:

$$ g(x) \sim \sum_{n=1}^{+\infty} \left( n^s a_n \cos(nx) + n^s b_n \sin(nx) \right) $$

2. $H^s$ 空间的严密定义

对于任意实数 $s \in \mathbb{R}$,如果函数 $f(x)$ 的傅里叶系数满足如下加权级数收敛:

$$ \|f\|_{H^s}^2 = \frac{a_0^2}{2} + \sum_{n=1}^{+\infty} n^{2s} (a_n^2 + b_n^2) < +\infty $$

则称函数 $f$ 属于 $s$阶索伯列夫空间(记作$f \in H^s$)

  • $H^0$空间:当$s=0$时,上式退化为$\sum (a_n^2 + b_n^2) < +\infty$,这正是经典的平方可积空间 $L^2$。它只要求函数自身的总能量有限。

  • $H^1$空间:当$s=1$时,上式要求$\sum n^2 (a_n^2 + b_n^2) < +\infty$,这等价于函数的一阶导数平方可积($\int |f’|^2 dx < +\infty$)。

  • 分数阶空间(例如 $H^{\frac{1}{2}}$):当 $s = \frac{1}{2}$时,级数形式为$\sum n (a_n^2 + b_n^2) < +\infty$。它度量了一种“半阶导数”的能量。

3. 纵深总结

通过引入索伯列夫空间 $H^s$,数学家成功建立了一套完美的对偶谱方法体系:

$$ \text{时域平滑度标准:} f \in H^s \Longleftrightarrow \text{频域衰减谱约束:} \sum n^{2s}(a_n^2+b_n^2) < +\infty $$

这一理论打破了经典微积分只能讨论整数阶导数的局限。在现代偏微分方程(PDE)的数值求解、小波分析以及信号处理的谱方法中,通过考察指标 $s$ 的临界边界,我们可以非常精准地捕捉微分方程解的奇异性与图形毛刺的演化规律。

阅读全文

14

2026/5/26
阅读全文

笔记9. 对易关系

线代 2026/5/7

(叠甲:以下默认底层域 $K$为代数闭域(例如$\mathbb C$))
我们知道,矩阵乘法一般而言并没有交换律,于是满足交换律的矩阵们就有一定的稀缺性,有时具有一些有趣的性质。

记号:$K[A] = {f(A) \mid f \in K[x]}$,$C(A)={X\mid XA=AX}$

我们首先看一个广为人知的命题。

可交换的可对角化的矩阵可以同时对角化

设 $AB=BA$,且二者可对角化,那么存在$U$,使得$UAU^{-1},UBU^{-1}$ 同时为对角阵。

法1——爆算

第一步:对齐 $A$ 的特征景观

由于 $A$可对角化,存在可逆阵$U$,使得 $UAU^{-1} = D$。为了看清结构,我们将 $D$ 中相同的特征值聚集在一起,写成分块形式:

$$ D = \begin{pmatrix} \lambda_1 I_{k_1} & & \\ & \lambda_2 I_{k_2} & \\ & & \ddots \end{pmatrix} $$

这里 $\lambda_i$ 互不相同,$I_{k_i}$是$k_i$阶单位阵(即$\lambda_i$ 的重数)。

第二步:交换性带来的“形状限制”

设 $B’ = UBU^{-1}$。由 $AB=BA$可推导出$DB’ = B’D$。

我们将 $B’$按照$D$ 的尺寸进行分块:$B’ = (B’_{ij})$。

带入等式 $DB’ = B’D$ 可得,对于每一块都有:

$$ \lambda_i I_{k_i} B'_{ij} = B'_{ij} \lambda_j I_{k_j} \implies (\lambda_i - \lambda_j) B'_{ij} = 0 $$

  • 当 $i \neq j$时,由于$\lambda_i \neq \lambda_j$,必有 $B’_{ij} = 0$。

    这说明 $B’$ 必须是一个分块对角阵

$$ B' = \begin{pmatrix} B'_{11} & & \\ & B'_{22} & \\ & & \ddots \end{pmatrix} $$

第三步:继承对角化性质

这是最关键的一步。因为 $B$可对角化,所以它的极小多项式$m_B(x)$ 没有重根。

由于 $B’$是分块对角阵,容易证明每个分块$B’{ii}$的极小多项式$m{B’_{ii}}(x)$必然能整除$m_B(x)$。

这意味着每个子块 $B’_{ii}$ 的极小多项式也没有重根

根据可对角化的充要条件,每一个小块 $B’_{ii}$ 都是可对角化的。

第四步:局部微调实现全域对角化

对于每个 $B’{ii}$,存在可逆阵 $P_i$使得$P_i B’{ii} P_i^{-1} = \Lambda_i$(对角阵)。

构造全空间的变换矩阵 $P = \text{diag}(P_1, P_2, \dots)$。

此时,考虑总变换矩阵 $W = PU$:

  1. 对于 $A$:$WAW^{-1} = P D P^{-1}$。由于 $P$的分块结构与$D$一致,且$P_i$与单位阵的倍数$\lambda_i I$交换,所以$WAW^{-1} = D$,保持对角形不变

  2. 对于 $B$:$WBW^{-1} = P B’ P^{-1} = \text{diag}(\Lambda_1, \Lambda_2, \dots)$,变成了对角阵

至此,证明完成。

法2:不变子空间分解法

第一步:空间按 $A$ 的特征值进行谱分解

由于 $A$在$V$上可对角化,全空间$V$可以分解为$A$ 的特征子空间的直和:

$$ V = V_{\lambda_1} \oplus V_{\lambda_2} \oplus \dots \oplus V_{\lambda_k} $$

其中 $V_{\lambda_i} = { v \in V \mid Av = \lambda_i v }$。

第二步:证明 $V_{\lambda_i}$是$B$ 的不变子空间

对于任何 $v \in V_{\lambda_i}$,我们考察 $Bv$ 后的结果。

利用交换性 $AB = BA$:

$$ A(Bv) = (AB)v = (BA)v = B(Av) = B(\lambda_i v) = \lambda_i (Bv) $$

这表明 $Bv$依然满足$A$的特征向量定义,其对应的特征值仍为$\lambda_i$。

因此,$Bv \in V_{\lambda_i}$,即 $V_{\lambda_i}$是$B$ 的不变子空间

第三步:限制算子的可对角化性继承

由于 $B$在全空间$V$上可对角化,其极小多项式$m_B(x)$ 是互异一次因子的乘积。

考虑 $B$在子空间$V_{\lambda_i}$上的限制算子$B|{V{\lambda_i}}$。该限制算子的极小多项式 $m_{B|{V{\lambda_i}}}(x)$必然能整除$m_B(x)$。

因此,$m_{B|{V{\lambda_i}}}(x)$ 同样是由互异一次因子构成的。

结论: $B$在每一个特征子空间$V_{\lambda_i}$ 上都是可对角化的。

第四步:选取共同基底

既然 $B$在$V_{\lambda_i}$上可对角化,我们可以在每个$V_{\lambda_i}$中选出一组$B$的特征向量作为基底,记为$\mathcal{B}_i$。

  • 因为这组基在 $V_{\lambda_i}$中,它们天然全是$A$的特征向量(特征值均为$\lambda_i$)。

  • 因为这组基是按 $B$的特征向量选取的,它们也全是$B$ 的特征向量。

第五步:组合与完成

将这些基底合起来:$\mathcal{B} = \mathcal{B}_1 \cup \mathcal{B}_2 \cup \dots \cup \mathcal{B}_k$。

由于全空间是直和关系,$\mathcal{B}$构成了全空间$V$ 的一组基。在这组基下,$A$和$B$ 同时呈现为对角矩阵。


从中,有一件事具有一定的一般性,如果可交换,那么一方的特征子空间是另一方的不变子空间。类似的,核空间和像空间也一样:

若线性变换 $A,B$可以交换,那么$KerB,ImB$都是$A$ 不变子空间。

$$ AB=BA $$

考虑 $B\alpha=0$则$B(A\alpha)=A(B\alpha)=0$,故$A\alpha\in KerB$ 。
考虑 $\alpha=B\beta$,则$A(B\beta)=B(A\beta)\in ImB$ 。

通过Jordan标准型研究中心化子 C(A)

问题的转化

我们如何研究比较一般的对易性或者说可交换性呢?一个自然的想法是,原来的矩阵很复杂,我们可以看看标准型,如果能通过标准型判定,自然是极好的。那么就想到用 $Jordan$ 标准型来考虑问题。

若 $A = UJU^{-1}$(其中 $J$可以是 Jordan 标准型或对角阵),则关于$A$的算子性质可以平移到$J$ 上:

  • $A^k = UJ^kU^{-1}$-$g(A) = Ug(J)U^{-1}$

  • 中心化子的相似性:$C(A) = U C(J) U^{-1}$这意味着研究$A$的交换矩阵,等价于在$A$的标准型坐标系下研究与$J$ 交换的矩阵。

Jordan标准型的对易性

K[A]

对于一个若尔当块 $J_k(\lambda)$,其多项式函数 $g(J_k(\lambda))$的结果是一个上三角托普利茨矩阵 (Upper Triangular Toeplitz Matrix)。其填充逻辑基于$g(x)$ 在特征值处的泰勒展开 (Taylor Expansion)

展开式规则:

  • 针对特征值 $\lambda$(阶数为 3):

    $g(x) \equiv c_0 + c_1(x-\lambda) + c_2(x-\lambda)^2 \pmod{(x-\lambda)^3}$其中系数$c_i = \frac{g^{(i)}(\lambda)}{i!}$。

  • 针对特征值 $\mu$(阶数为 2):

    $g(x) \equiv d_0 + d_1(x-\mu) \pmod{(x-\mu)^2}$其中系数$d_i = \frac{g^{(i)}(\mu)}{i!}$。


$g(A)$ 的矩阵表示

假设 $A$由两个$\lambda$块(3阶和2阶)及一个$\mu$块(2阶)组成,那么$g(A)$ 的形式如下:

$$ g(A) = \begin{pmatrix} c_0 & c_1 & c_2 & 0 & 0 & 0 & 0 \\ 0 & c_0 & c_1 & 0 & 0 & 0 & 0 \\ 0 & 0 & c_0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & c_0 & c_1 & 0 & 0 \\ 0 & 0 & 0 & 0 & c_0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & d_0 & d_1 \\ 0 & 0 & 0 & 0 & 0 & 0 & d_0 \end{pmatrix} $$

关键逻辑:

  1. 同步性: 注意到两个不同的 $\lambda$块使用了完全相同的系数$c_0, c_1$。这是因为它们是由同一个多项式 $g(x)$ 作用的结果。

  2. 结构: 每个子块内部都是由展开系数构成的对角线平移。


$K[A]$ 代数的性质

根据中国剩余定理 (Chinese Remainder Theorem),$K[A]$ 中的矩阵完全由这些独立的泰勒系数决定。

设矩阵 $A$的最小多项式为$m_A(x)$。如果我们可以将其分解为互素的因子:

$$ m_A(x) = \prod_{i=1}^k (x-\lambda_i)^{r_i} $$

那么根据 CRT,多项式子代数 $K[A]$ 可以被拆解为:

$$ K[A] \cong K[x]/(m_A(x)) \cong \frac{K[x]}{(x-\lambda_1)^{r_1}} \oplus \frac{K[x]}{(x-\lambda_2)^{r_2}} \oplus \dots \oplus \frac{K[x]}{(x-\lambda_k)^{r_k}} $$

考虑 CRT 中的一个原子项:$K[x] / (x-\lambda)^r$。这对应了 $A$的一个(或一组)关于$\lambda$ 的 Jordan 块。

在这个局部空间里,任何多项式 $g(x)$都可以绕着特征值$\lambda$ 做展开:

$$ g(x) = g(\lambda) + g'(\lambda)(x-\lambda) + \frac{g''(\lambda)}{2!}(x-\lambda)^2 + \dots + \frac{g^{(r-1)}(\lambda)}{(r-1)!}(x-\lambda)^{r-1} + R(x) $$

由于在局部空间里 $(x-\lambda)^r = 0$,余项 $R(x)$ 直接消失了。


C(A)

通常,$C(A)$包含$K[A]$ ,因为自己生成的多项式当然可以和自己交换。

可交换矩阵可同样分块

设矩阵 $A$ 为分块对角矩阵:

$$ A = \begin{bmatrix} A_1 & & 0 \\ & A_2 & \\ 0 & & \ddots & \\ & & & A_s \end{bmatrix} $$

其中,$A_i$是由对角元素均为$\lambda_i$ 的 若尔当块(Jordan blocks) 排成的对角分块矩阵。
关键前提:特征值 $\lambda_1, \lambda_2, \dots, \lambda_s$ 两两互异 ($互异$: distinct / mutually different)。

若矩阵 $B$与$A$ 可交换,即满足:

$$ AB = BA $$

若 $AB = BA$,则 $A$的根子空间 (generalized eigenspace)$ker(A - \lambda_i I)^{n_i}$也是$B$-不变子空间。由于各 $\lambda_i$ 互异,这些子空间直接对应了矩阵的分块结构。

由此可以推导出矩阵 $B$必须具有与$A$ 相同的分块对角结构:

$$ B = \begin{bmatrix} B_1 & & 0 \\ & B_2 & \\ 0 & & \ddots & \\ & & & B_s \end{bmatrix} $$

并且满足分块间的交换性:

$$ B_i A_i = A_i B_i, \quad 1 \le i \le s $$

具体形式的探索

1. 特征值的平移不变性

设 $A$为对角元均为$\lambda$ 的若尔当形矩阵(Jordan Form)。
根据交换性定义:

$$ BA = AB \iff B(A - \lambda I) = (A - \lambda I)B $$

由此可知,求 $A$ 的交换代数等价于求其平移后的矩阵:
$C(A) = C(A - \lambda I)$
因此,以下进一步假设 $A$的对角元均为$0$。

2. 循环基(Cyclic Basis)的应用演示

通过循环基可以更直观地处理交换代数问题。
设 $A$ 为如下分块矩阵:

$$ A = \begin{bmatrix} 0 & 1 & 0 & \vdots & 0 & 0 \\ 0 & 0 & 1 & \vdots & 0 & 0 \\ 0 & 0 & 0 & \vdots & 0 & 0 \\ \dots & \dots & \dots & \vdots & \dots & \dots \\ 0 & 0 & 0 & \vdots & 0 & 1 \\ 0 & 0 & 0 & \vdots & 0 & 0 \end{bmatrix} $$

即由一个 $3 \times 3$和一个$2 \times 2$ 的若尔当块组成的矩阵。

定义循环基向量:
  • 第一组: 设 $\alpha_1 = [1, 0, 0, 0, 0]^T$$A\alpha_1 = [0, 1, 0, 0, 0]^T$$A^2\alpha_1 = [0, 0, 1, 0, 0]^T$$(A^3\alpha_1 = 0)$ 第二组: 设$\alpha_2 = [0, 0, 0, 1, 0]^T$$A\alpha_2 = [0, 0, 0, 0, 1]^T$$(A^2\alpha_2 = 0)$

于是,${\alpha_1, A\alpha_1, A^2\alpha_1, \alpha_2, A\alpha_2}$构成了$K^5$ 的一组基。

3. 交换矩阵 B 的性质推导

任取 $B \in C(A)$,将 $B$ 作用在基向量上。
设 $B\alpha_1$ 为基向量的线性组合:

$$ B\alpha_1 = k_1\alpha_1 + k_2A\alpha_1 + k_3A^2\alpha_1 + k_4\alpha_2 + k_5A\alpha_2 $$

利用 $BA = AB$ 进行约束:

  1. 对于 $B(A\alpha_1)$:

$$ B(A\alpha_1) = A(B\alpha_1) $$

$$ = k_1(A\alpha_1) + k_2(A^2\alpha_1) + k_4(A\alpha_2) $$

(注:$A^3\alpha_1=0$且$A^2\alpha_2=0$)

  1. 对于 $B(A^2\alpha_1)$:

$$ B(A^2\alpha_1) = A(BA\alpha_1) $$

$$ = k_1(A^2\alpha_1) $$

设 $B\alpha_2$ 为基向量的线性组合:

$$ B\alpha_2 = l_1\alpha_1 + l_2A\alpha_1 + l_3A^2\alpha_1 + l_4\alpha_2 + l_5A\alpha_2 $$

利用 $BA = AB$ 进行约束推导:

  1. 对于 $B(A\alpha_2)$:

$$ B(A\alpha_2) = A(B\alpha_2) = l_1A\alpha_1 + l_2A^2\alpha_1 + l_4A\alpha_2 $$

(注:$A^3\alpha_1=0$且$A^2\alpha_2=0$)

  1. 利用 $A^2\alpha_2 = 0$ 的性质:

$$ 0 = B(A^2\alpha_2) = A(B A\alpha_2) = l_1A^2\alpha_1 $$

由于 $A^2\alpha_1 \neq 0$,由此推导出核心约束:
$l_1 = 0$

$C(A)$ 中矩阵的一般形状

综合所有基向量在 $B$ 作用下的表现:

$$ B(\alpha_1, A\alpha_1, A^2\alpha_1, \alpha_2, A\alpha_2) = (\alpha_1, A\alpha_1, A^2\alpha_1, \alpha_2, A\alpha_2) \cdot \mathbf{M}_B $$

其中,在循环基下矩阵 $B$的表示矩阵$\mathbf{M}_B$ 为:

$$ \mathbf{M}_B = \begin{bmatrix} k_1 & 0 & 0 & \vdots & 0 & 0 \\ k_2 & k_1 & 0 & \vdots & l_2 & 0 \\ k_3 & k_2 & k_1 & \vdots & l_3 & l_2 \\ \dots & \dots & \dots & \vdots & \dots & \dots \\ k_4 & 0 & 0 & \vdots & l_4 & 0 \\ k_5 & k_4 & 0 & \vdots & l_5 & l_4 \end{bmatrix} $$

我们可以看到,相当于第一列不断下移。
一般地我们可以证明:
命题:若 $X$与$J_n(0)$可交换,则$X$ 必为上三角 Toeplitz 矩阵。
证明:设 $N = J_n(0)$。由 $XN = NX$可知,比较第$(i, j)$元:$(XN){i,j} = x{i,j-1}$($X$的列左移)$(NX){i,j} = x{i+1,j}$($X$的行上移) 故$x_{i,j-1} = x_{i+1,j}$,这意味着沿主对角线平行的元素全部相等。

小结

若矩阵 $B$取以上形状,其中参数$k_1, \dots, k_5, l_2, \dots, l_5 \in K$ 任取,则:

$$ \{\alpha_1, A\alpha_1, A^2\alpha_1, \alpha_2, A\alpha_2\} \in \ker(AB - BA) $$

因为就是从 $AB=BA$推出来的。这说明该基底中的每一个向量都被$AB-BA$ 映射为零向量。由于这组向量构成空间的基,因此:

$$ AB = BA $$

一般情形下的分块结构

设 $A$为由多个上三角若尔当块组成的矩阵,特征值均为$\lambda$。
例如图中示例,当 $A$由阶数为$3, 2, 2$ 的三个块组成时:

$$ A = \text{diag}(J_3, J_2, J_2) $$

与之可交换的矩阵 $B \in C(A)$ 具有如下分块形状:

$$ B = \begin{bmatrix} \text{Toep}(3\times3) & \text{Toep}(3\times2) & \text{Toep}(3\times2) \\ \text{Toep}(2\times3) & \text{Toep}(2\times2) & \text{Toep}(2\times2) \\ \text{Toep}(2\times3) & \text{Toep}(2\times2) & \text{Toep}(2\times2) \end{bmatrix} $$

或者打出具体系数:

$$ B = \left[ \begin{array}{ccc:cc:cc} a_0 & a_1 & a_2 & a_7 & a_8 & a_{11} & a_{12} \\ 0 & a_0 & a_1 & 0 & a_7 & 0 & a_{11} \\ 0 & 0 & a_0 & 0 & 0 & 0 & 0 \\ \hdashline 0 & a_9 & a_{10} & a_3 & a_4 & a_{15} & a_{16} \\ 0 & 0 & a_9 & 0 & a_3 & 0 & a_{15} \\ \hdashline 0 & a_{13} & a_{14} & a_{17} & a_{18} & a_5 & a_6 \\ 0 & 0 & a_{13} & 0 & a_{17} & 0 & a_5 \end{array} \right] $$

  • 对角块与交叉块:每个分块内部都呈现 Toeplitz 结构(主对角线及其平行线上元素相等)。
  • 阶数限制:对于 $m \times n$的交叉分块,其独立变量的个数由$\min(m, n)$ 决定。

维数 $dim C(A)$ 的一般性推导

设 $A$是对角元均为$\lambda$ 的若尔当形矩阵,各对角块阶数满足:

$$ n_1 \ge n_2 \ge \dots \ge n_s $$

$C(A)$的总维数等于所有分块独立变量数之和。根据$\min(n_i, n_j)$ 的原则,维数分布呈现如下阶梯状矩阵模式:

  • 第 1 行贡献:$n_1 + n_2 + n_3 + \dots + n_s$(由于 $n_1$最大,各$\min(n_1, n_j) = n_j$,但由于对称性及 $B_{ij}$结构,此处统计逻辑为各列对第$i$ 块的贡献)
  • 通过对所有 $\min(n_i, n_j)$ 求和:

$$ \begin{array}{c|ccccc} & n_1 & n_2 & n_3 & \dots & n_s \\ \hline n_1 & n_1 & n_2 & n_3 & \dots & n_s \\ n_2 & n_2 & n_2 & n_3 & \dots & n_s \\ n_3 & n_3 & n_3 & n_3 & \dots & n_s \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ n_s & n_s & n_s & n_s & \dots & n_s \end{array} $$

将上述表格按行或按规律求和,可提炼出交换代数维数的最终计算公式:
**

$$ \mathbf{dim C(A) = n_1 + 3n_2 + 5n_3 + 7n_4 + \dots + (2s-1)n_s} $$

**

结构总结

我们可以把这种结构形象地理解为“大分块”嵌套“小分块”:

第一层:按“特征值”进行的大分块(外部结构)
  • 由于特征值 $\lambda_i$ 互异,不同特征值对应的根子空间之间是“绝缘”的。

  • 形态:整个矩阵 $B$ 呈现严格的分块对角(Block Diagonal)形状。

  • 这意味着在 $B$矩阵中,如果横向和纵向对应的特征值不同,那个位置的整个子块必须全是$0$。

第二层:按“若尔当块”进行的小分块(内部结构)
  • 在同一个特征值 $\lambda_i$对应的大对角块内部,可能存在多个小的若尔当块$J_{n_1}, J_{n_2} \dots$。

  • 形态:这个大对角块内部是“全通”的,即每一对小块之间都可以有非零的交叉块

  • 约束:为了满足交换性,这些对角小块和交叉小块都必须是 Toeplitz 结构


总结模型

如果矩阵 $A$有两个特征值$\lambda_1$(对应 $2$个若尔当块)和$\lambda_2$(对应 $1$个若尔当块),那么$B$ 的形状如下:

$$ B = \left[ \begin{array}{cc|c} \color{blue}{\text{Toep}} & \color{blue}{\text{Toep}} & \mathbf{0} \\ \color{blue}{\text{Toep}} & \color{blue}{\text{Toep}} & \mathbf{0} \\ \hline \mathbf{0} & \mathbf{0} & \color{green}{\text{Toep}} \end{array} \right] $$

  • 蓝色区域:对应特征值 $\lambda_1$ 的“大块”,内部因为有多个若尔当块,所以填满了交叉 Toeplitz 块。

  • 绿色区域:对应特征值 $\lambda_2$ 的“大块”,因为只有一个若尔当块,所以它只是一个简单的对角线 Toeplitz 块。

  • $\mathbf{0}$区域:因为特征值$\lambda_1 \neq \lambda_2$,所以大块之间必须为零,形成了分块对角的宏观结构。

这种分层结构完美解释了为什么当一个特征值对应多个块时,交换代数 $C(A)$会因为内部的“跨块耦合”而失去交换性(即$C(A)$ 不再是交换环)。


矩阵 A 的二次中心化子 $C(C(A))$

1. 二次中心化子的定义

二次中心化子 $C(C(A))$定义为所有与$C(A)$中每一个元素都交换的矩阵$M$ 组成的集合:

$$ C(C(A)) = \{ M \mid MB = BM, \forall B \in C(A) \} = ? $$

2. 实例推导

**以 $A = \left[ \begin{array}{ccc:cc} 0 & 1 & 0 & & \ 0 & 0 & 1 & & \ 0 & 0 & 0 & & \ \hdashline & & & 0 & 1 \ & & & 0 & 0 \end{array} \right]$ 为示例.

在 $C(A)$中选两个矩阵$B_1 = \left[ \begin{array}{ccc:cc} 0 & 1 & 0 & & \ 0 & 0 & 1 & & \ 0 & 0 & 0 & & \ \hdashline & & & 1 & 1 \ & & & 0 & 1 \end{array} \right] , \quad B_2 = \left[ \begin{array}{ccc:cc} 0 & 0 & 0 & 1 & 0 \ & 0 & 0 & 0 & 1 \ & & 0 & 0 & 0 \ \hdashline & & & 0 & 0 \ & & & & 0 \end{array} \right]$若$M \in C(C(A))$,则 $M \in C(B_1)$,于是 $M = \left[ \begin{array}{ccc:cc} a_0 & a_1 & a_2 & & \ & a_0 & a_1 & & \ & & a_0 & & \ \hdashline & & & b_0 & b_1 \ & & & & b_0 \end{array} \right] \quad a_i, b_j \in K.$再由$M B_2 = B_2 M$(比较右上角的二阶块)$\Rightarrow a_0 = b_0, a_1 = b_1 \Rightarrow M \in K[A]$是$A$ 的多项式

3. 核心结论——双重中心化子定理

通过以上约束推导得出:
**

$$ C(C(A)) = K[A] $$

**
即:只有当 $M$是矩阵$A$ 的多项式($A$的多项式环$K[A]$)时,它才能与 $C(A)$ 中的所有矩阵交换。

4. 关于交换环的深度观察

  • 非交换性:特别地,在上述例子中 $B_1B_2 \neq B_2B_1$。
  • 判别准则:只要矩阵 $A$的某一个特征值$\lambda$对应了两个或两个以上的若尔当块,那么它的交换代数$C(A)$ 就不是交换环

一些杂题

我们会发现一些类似对易的样式的条件会满足的一些共性。例如之前提到的特征子空间是另一方的不变子空间。还有一个性质:

$$ BA-AB=A $$

这能得到

$$ BA^{k}-A^kB=kA^k $$

只需要归纳即可

$$ BA^k = (BA^{k-1})A = (A^{k-1}B + (k-1)A^{k-1})A = A^{k-1}(BA) + (k-1)A^k $$

$$ = A^{k-1}(AB+A) + (k-1)A^k = A^kB + A^k + (k-1)A^k = A^kB + kA^k $$

虽然不知道有什么用,但是还挺有意思。
此外,由于特征子空间是另一方的不变子空间,那么会想到拿循环子空间去给人家作用会得到一些有趣的结果,例如[[#3. 交换矩阵 B 的性质推导]]。

我们可以看一道期中考试的压轴,虽然不是对易的,但是可以类似地操作。

$$ 复数域上考虑,A^n=0,dimKerA=1,BA-AB=A,证明B可以对角化 $$

由于 $dimKerA=1$,只有一条链,我们就知道这对应一个强循环子空间$\alpha,A\alpha,…$,我们考虑$B$ 的作用:

$$ 设 B\alpha=k_0\alpha+k_1A\alpha+...+k_{n-1}A^{n-1}\alpha $$

那么我们带入这个条件

$$ BA\alpha-AB\alpha=A\alpha $$

就得到

$$ BA\alpha=(k_0+1)A\alpha+k_1A^2\alpha+...+k_{n-2}A^{n-1}\alpha $$

规律已经昭然,我们可以再算一项

$$ BA^2\alpha=A^2B\alpha+2A^2\alpha=(k_0+2)A^2\alpha+...+k_{n-3}A^{n-1}\alpha $$

以此类推,最后一项就是

$$ BA^{n-1}\alpha=(k_0+n-1)A^{n-1}\alpha $$

那么 $B$在这一组基下对应的矩阵就是一个下三角的矩阵,对角元是$k_0+i$,其中$i=0,1,2…$,所以他有$n$ 个互异特征值,从而可以对角化。

阅读全文
1 ... 6 7 8 ... 14