LOADING

加载过慢请开启缓存 浏览器默认开启

Logic の 博客

一小块凝固的时间

概念题

2026/5/6


1.贝叶斯定理是

$$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$

说明后验概率可以由先验概率和似然得到。
最大似然估计 $MLE$即最大化似然,在已知观测数据$B$的情况下,寻找使似然函数$P(B|A)$最大化的参数$A^*$。
最大后验估计 $MAP$即最大化后验概率,即最大化$P(B|A)P(A)$ 。

2 . $\mu=\bar{x},\sigma^2=\frac{1}{n}\sum{(x-\bar{x})^2}$

3。输出值离散,连续。分别用于寻找决策边界,拟合映射函数。

4。数据有无正确标签。分别用于学习映射关系,发现数据的结构。

5.特征数大于参数量时或 $A^TA$ 不可逆时无 closed form,反之可有。

6.参数较小但一般非零,原因:正则化项为平方,对应超球,倾向离原点更近。
Lasso的解较稀疏,原因:正则化项为 $L_1$ 范数,在多维空间中具有菱形顶点,更倾向于贴向坐标轴。

7.从model function看,Linear regression只用线性模型,而 Logistic regression 加上了 sigmoid 函数使得输出被压缩到0到1.
从Loss function看,Linear regression用Square loss,Logistic regression用Cross Entropy,以避免梯度消失。
从optimization solution看,都是反向传播梯度下降来优化参数。

8.选取邻居的个数,以及距离度量方式。通过 Cross Validation 选择。

1.损失函数为度量模型输出和期望的输出间的函数,通过最小化损失函数我们可以得到想要的输出,损失函数提供了量化输出的方法。学习率是梯度下降中梯度的系数,通过调控学习率,使得梯度下降有适当的速率,同时避免震荡。

2.线性回归的损失函数为 Square Loss ,也就是

$$ \mathcal{L}(\mathbf{W}, b) = \frac{1}{2} (\hat{y} - y)^2 = \frac{1}{2} (\mathbf{W}^\top \mathbf{x} + b - y)^2 $$

3.根据链式法则进行推导:

对 $b$ 求偏导

$$ \frac{\partial \mathcal{L}}{\partial b} = (\mathbf{W}^\top \mathbf{x} + b - y) \cdot 1 = \hat{y} - y $$

对 $\mathbf{W}$ 求偏导:

$$ \frac{\partial \mathcal{L}}{\partial \mathbf{W}} = (\mathbf{W}^\top \mathbf{x} + b - y) \cdot \mathbf{x} = (\hat{y} - y)\mathbf{x} $$

$$ \mathbf{W}_{n+1} = \mathbf{W}_n - [\nabla^2 \mathcal{L}(\mathbf{W}_n, b_n)]^{-1} \nabla \mathcal{L}(\mathbf{W}_n, b_n) $$

1.让函数变得非线性,从而可以处理更复杂的边界。

2.带入 $h$整理就知道$\hat{y} = (\mathbf{W}_2^\top \mathbf{W}_1^\top) \mathbf{x} + (\mathbf{W}_2^\top \mathbf{b}_1 + b_2)$ ,只是把矩阵稍作改换,仍然是线性模型的形式。

3.线性层堆叠仍然线性,故为了处理更复杂的边界,需要引入非线性函数。

4.sigmoid:类似S型曲线的函数,通常和 Logistic 函数 $\frac{1}{1+e^x}$混用。tanh即双曲函数。ReLU 为$max(0,x)$ 。

5.对一个包含 $K$个类别的输出向量$\mathbf{z} = [z_1, z_2, \dots, z_K]$,Softmax 的第 $i$ 个分量定义为:

$$ \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} $$

6.使概率归一化,同时放大 logits 的差异,让模型更“自信”

1.$f(x) = 0.5x + 1$,损失均为0

$$ \mathcal{L}(\mathbf{w}) = \frac{1}{2m} \sum_{i=1}^{m} (\mathbf{w}^\top \mathbf{x}_i - y_i)^2 $$

  • 初始化 $\mathbf{w} = (0, 0, 0, 0, 0)^\top$,学习率 $\eta = 0.1$。

  • 梯度更新公式:$\mathbf{w}^{(1)} = \mathbf{w}^{(0)} - \eta \cdot \nabla_{\mathbf{w}} \mathcal{L}$。

  • 梯度 $\nabla_{\mathbf{w}} \mathcal{L} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i) \mathbf{x}_i$。

计算过程

  1. 初始预测值 $\hat{y}_i = \mathbf{0}^\top \mathbf{x}_i = 0$。

  2. 误差 $(\hat{y}_i - y_i)$ 分别为:$-1, -1.5, -2, -2.5$。

  3. 样本向量 $\mathbf{x}$ 分别为:$(1,0,0,0,0)^\top, (1,1,1,1,1)^\top, (1,2,4,8,16)^\top, (1,3,9,27,81)^\top$。

  4. 平均梯度 $\nabla_{\mathbf{w}} \mathcal{L} = \frac{1}{4} [(-1)\mathbf{x}_1 + (-1.5)\mathbf{x}_2 + (-2)\mathbf{x}_3 + (-2.5)\mathbf{x}_4] = (-1.75, -2.25, -6.625, -20.875, -53.625)^\top$。

  5. 更新:$\mathbf{w}^{(1)} = \mathbf{0} - 0.1 \cdot \nabla_{\mathbf{w}} \mathcal{L} = \mathbf{[0.175, 0.225, 0.6625, 2.0875, 5.3625]^\top}$。

训练集损失计算:

根据模型 $\hat{y} = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4$,代入各训练点:

  • $x=0$: $\hat{y} = 1.0$

  • $x=1$: $\hat{y} \approx 1.0 \times 10^5$

  • $x=2$: $\hat{y} \approx 5.0 \times 10^5$

  • $x=3$: $\hat{y} \approx 1.5 \times 10^6$

训练集均方误差 :

$$ MSE_{train} \approx 6.27 \times 10^{11} $$

测试集损失计算:

对于测试点 $x=4, y=3$:

  • 预测值 $\hat{y}$:

$$ \hat{y} = 1.0 + 24998.75(4) + 45831.96(16) + 24999.25(64) + 4166.54(256) $$

$$ \hat{y} \approx 3,499,893.6 $$

  • 测试集均方误差:

$$ MSE_{test} = (3499893.6 - 3)^2 \approx 1.22 \times 10^{13} $$

现象:梯度爆炸。

原因:

  1. 模型复杂度过高:使用了 4 次多项式模型。

  2. 学习率过大。

  3. 初始化不当。

  • 定义

    • L1 正则化 (Lasso):在损失函数后加上权重绝对值之和 $\lambda |\mathbf{w}|_1$。

    • L2 正则化 (Ridge):在损失函数后加上权重平方和的一半 $\frac{\lambda}{2} |\mathbf{w}|_2^2$。

  • 分析

    • 修改损失函数? 是。增加了惩罚项。

    • 修改网络结构? 否。网络层数和神经元数量保持不变。

    • 改变参数更新过程? 是。在梯度下降中,梯度会包含正则项的导数(如 L2 会引入Weight Decay)。

  1. Data Augmentation:获取更多样化的训练样本。

  2. 早停法:在验证集损失上升前停止训练。

  3. Dropout:在神经网络中随机使部分神经元失活。

  4. 简化模型:降低多项式的次数(例如改用线性回归)。

1.感受野是指在 CNN 中,每一层输出的特征图上的一个像素点在原始输入图像上对应的区域大小。

计算公式如下:

$RF_{i} = RF_{i-1} + (k_i - 1) \cdot \prod_{j=1}^{i-1} s_j$

其中:

  • $RF_i$是第$i$ 层的感受野。

  • $RF_{i-1}$是前一层的感受野(输入层的$RF_0 = 1$)。

  • $k_i$是第$i$ 层的卷积核(或池化核)大小。

  • $s_j$是第$j$ 层的步长。

模型 不同点 相同点
R-CNN 原始版本。对 候选区域分别进行卷积计算,速度极慢,占用空间大。 1. 都是二阶段方法。
SPP Net 引入空间金字塔池化。全图只进行一次卷积,在特征图上提取候选区域,解决了输入尺寸必须固定的问题。 2. 都依赖候选区域生成算法(如 Selective Search)。
Fast R-CNN 将分类与边界框回归整合进一个网络。引入 RoI Pooling,大大提升了训练速度。 3. 最后都包含分类头和回归头。
Faster R-CNN 提出 RPN。用神经网络取代了速度慢的传统算法,实现了真正意义上的端到端训练。

相同点

  • 循环结构:两者都用于处理序列数据(如文本、音频、时间序列)。

  • 状态传递:都利用隐藏状态来传递过去时间步的信息。

不同点

  • 结构复杂度:

    • RNN:结构非常简单,只有一个单一的 $tanh$ 层进行循环。

    • LSTM:结构复杂,引入了 门控机制,包含输入门、遗忘门、输出门以及细胞状态。

LSTM 的优势

  1. 解决长程依赖问题:RNN 在处理长序列时容易出现 梯度消失梯度爆炸。LSTM 通过细胞状态的长线传输,能有效保留远距离的信息。

  2. 记忆管理

    • 遗忘门:决定丢弃哪些无关信息。

    • 输入门:决定存入哪些新信息。

    • 输出门:决定当前输出哪些信息。

阅读全文

笔记7.从幂零变换的结构到Jordan标准型

线代 2026/5/6

在之前,我们已经把线性变换分割成了不变子空间,并考虑了其上的限制映射和诱导映射,而根子空间给出的分解让限制映射有一个非常好的性质,对限制在根子空间 $Ker(A-\lambda I)^r$的映射$A$,我们构造$B=(A-\lambda I)|_W$ 有

$$ \mathcal{B}^r \alpha = ((\mathcal{A} - \lambda I)|_W)^r \alpha = (\mathcal{A} - \lambda I)^r \alpha $$

其中 $\alpha \in Ker(A-\lambda I)^r$,从而$B^r=0$ 。也就是说这是个幂零矩阵,所以我们只需要研究幂零变换,就可以知道一般变换的性质。

幂零变换 (Nilpotent Endomorphism)

设 $\mathbf{B} \in \text{Hom}(V)$。若有正整数 $t$使得$\mathbf{B}^t = 0$,则称 $\mathbf{B}$是幂零变换。使$\mathbf{B}^t = 0$成立的最小指数$t$称为$\mathbf{B}$ 的幂零指数

幂零变换 $\mathbf{B}$的最小多项式是$x^t$。

幂零变换的循环子空间

对幂零变换,我们仍然找循环子空间。


任给 $\alpha \neq 0$,总有 $r \geq 1$,使得 $\mathbf{B}^{r-1}\alpha \neq 0, \mathbf{B}^r\alpha = 0$。

$$ Z(\alpha, \mathbf{B}) = \langle \alpha, \mathbf{B}\alpha, \mathbf{B}^2\alpha, \dots, \mathbf{B}^{r-1}\alpha \rangle $$

是 $\mathbf{B}$-子空间,称为由 $\alpha$ 生成的强循环子空间

$$ \alpha, \mathbf{B}\alpha, \dots, \mathbf{B}^{r-1}\alpha $$

称为 $Z(\alpha, \mathbf{B})$ 的循环基,$\mathbf{B}^{r-1}\alpha$ 称为循环基的尾项,它在后面的证明中起到关键性作用。
我们可以证明这构成基,考虑线性组合

$$ \sum_i c_iB^i\alpha=0 $$

我们作用 $B^{r-1}$就只剩$c_0B^{r-1}\alpha=0$,只能$c_0=0$。如法炮制就得到所有系数为$0$ 。


若 $Z(\alpha, \mathbf{B}) = \langle \alpha, \mathbf{B}\alpha, \mathbf{B}^2\alpha, \dots, \mathbf{B}^{r-1}\alpha \rangle$是$r$维$\mathbf{B}$-强循环子空间,则有

$$ \mathbf{B}(\alpha \ \mathbf{B}\alpha \ \mathbf{B}^2\alpha \dots \mathbf{B}^{r-1}\alpha) $$

$$ = (\alpha \ \mathbf{B}\alpha \ \mathbf{B}^2\alpha \dots \mathbf{B}^{r-1}\alpha) \begin{bmatrix} 0 & 0 & 0 & \dots & 0 \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \ddots & \vdots \\ \vdots & \vdots & \ddots & \ddots & 0 \\ 0 & 0 & \dots & 1 & 0 \end{bmatrix} $$

(矩阵为下三角形式,基向量按原序排列)


若 $Z(\alpha, \mathbf{B}) = \langle \alpha, \mathbf{B}\alpha, \mathbf{B}^2\alpha, \dots, \mathbf{B}^{r-1}\alpha \rangle$是$r$维$\mathbf{B}$-强循环子空间,则有

$$ \mathbf{B}(\mathbf{B}^{r-1}\alpha \ \mathbf{B}^{r-2}\alpha \dots \alpha) $$

$$ = (\mathbf{B}^{r-1}\alpha \ \mathbf{B}^{r-2}\alpha \dots \alpha) \begin{bmatrix} 0 & 1 & 0 & \dots & 0 \\ 0 & 0 & 1 & \dots & 0 \\ 0 & 0 & 0 & \ddots & \vdots \\ \vdots & \vdots & \vdots & \ddots & 1 \\ 0 & 0 & 0 & \dots & 0 \end{bmatrix} $$

(矩阵为上三角形式,循环基按降幂排列)



也就是说,不变子空间一定从某个幂次一直到 $r-1$ 次,中间不能断。

故 $r$维(强)循环子空间$Z(\alpha, \mathbf{B}) = \langle \alpha \ \mathbf{B}\alpha \dots \mathbf{B}^{r-1}\alpha \rangle$只有$r+1$个$\mathbf{B}$-不变子空间:

$$ Z(\alpha, \mathbf{B}) \supset Z(\mathbf{B}\alpha, \mathbf{B}) \supset Z(\mathbf{B}^2\alpha, \mathbf{B}) \supset \dots \supset Z(\mathbf{B}^{r-1}\alpha, \mathbf{B}) \supset \{0\} $$

这些循环基都有相同的尾项
接下来,我们想要得到原来的变换,需要把一个个子空间拼起来,那自然就想到什么时候是直和。

循环子空间直和的条件

给定 $\alpha, \beta \in W$,怎样才能保证

$$ Z(\alpha, \mathbf{B}) + Z(\beta, \mathbf{B}) \text{ 是直和?} $$

即:如何保证向量组

$$ \alpha, \mathbf{B}\alpha, \mathbf{B}^2\alpha, \dots, \mathbf{B}^{r-1}\alpha $$

$$ \beta, \mathbf{B}\beta, \dots, \mathbf{B}^{s-1}\beta $$

线性无关


引理:强循环子空间之和是直和的充要条件

结论: 强循环子空间之和是直和,当且仅当 循环基尾项线性无关


证明思路 (Proof Sketch)

1. 布局:

若存在系数不全为零的组合使得线性组合为 $0$。将各组循环基按升幂写在不同行上,并按尾项上下对齐

  • 第一行:$\alpha, \mathbf{B}\alpha, \mathbf{B}^2\alpha, \mathbf{B}^3\alpha, \mathbf{B}^4\alpha$(假设尾项是$\mathbf{B}^4\alpha$)

  • 第二行:$\beta, \mathbf{B}\beta, \mathbf{B}^2\beta, \mathbf{B}^3\beta$(假设尾项是$\mathbf{B}^3\beta$)

  • 第三行:$\gamma, \mathbf{B}\gamma, \mathbf{B}^2\gamma$(假设尾项是$\mathbf{B}^2\gamma$)

2. 核心操作(作用算子 B):

$k$ 维循环基与尾项的性质

对于 $k$ 维循环基:

$$ \alpha, \mathbf{B}\alpha, \dots, \mathbf{B}^{k-1}\alpha \quad (\mathbf{B}^k \alpha = 0) $$

尾项 $\mathbf{B}^{k-1}\alpha$ 具备双重身份:

  1. 属于像空间: $\mathbf{B}^{k-1}\alpha \in \text{Im} \mathbf{B}^{k-1}$(它是某个向量作用 $k-1$ 次算子后的结果)。

  2. 属于核空间: $\mathbf{B}^{k-1}\alpha \in \text{Ker} \mathbf{B}$(再作用一次 $\mathbf{B}$ 就归零了)。

因此,尾项位于这两个空间的交集之中:

$$ \mathbf{B}^{k-1}\alpha \in \text{Im} \mathbf{B}^{k-1} \cap \text{Ker} \mathbf{B} $$


空间序列的嵌套结构

设 $t$是算子$\mathbf{B}$的幂零指数(即$\mathbf{B}^t = 0$且$\mathbf{B}^{t-1} \neq 0$)。

我们可以定义一系列子空间 $W_k$,它们刻画了不同“长度”的循环基尾项所在的范围:

$$ W_k = \text{Im} \mathbf{B}^{k-1} \cap \text{Ker} \mathbf{B} $$

这些子空间构成了一个升序的嵌套链(Filtration):

$$ W_t = \text{Im} \mathbf{B}^{t-1} \subseteq W_{t-1} \subseteq \dots \subseteq W_2 \subseteq W_1 = \text{Ker} \mathbf{B} $$

同时,利用我们在商空间证明的

$$ \text{Im}\mathcal{A} \big/ (\text{Im}\mathcal{A} \cap \text{Ker}\mathcal{B}) \cong \text{Im}(\mathcal{BA}) $$

我们代入 $A=B^{k-1}$ 就得到

$$ dimImB^{k-1}-dim(ImB^{k-1}\cap KerB)=dimImB^k $$

也就是 $dimW^k=dimImB^{k-1}-dimImB^k$ 。这就得到了维数公式。

幂零变换的空间分解

实际上,由幂零变换我们就可以给出空间的分解,正是利用循环子空间
我们考虑基底扩张的过程,从最小的

$$ W_k = \text{Im}\mathcal{B}^{k-1} \cap \text{Ker}\mathcal{B} $$

中,我们取一组基 $\eta_{1}^{(t)}, \dots, \eta_{m_t}^{(t)}$,然后我们扩充到下一级,在$W_{t-1}$补上$\eta_{1}^{(t-1)}, \dots$;..直到 $W_1$。 此时,所有 $\eta$组成的集合是$\text{Ker}\mathcal{B}$ 的基,且彼此线性无关。

对每一个 $\eta \in W_k$,都可以找到对应的 $\alpha$满足$\mathcal{B}^{k-1}\alpha = \eta$。我们将所有这些 $\alpha$产生的循环链全部收集起来。由于特意通过“基底扩充”的方法选取$\eta$,所以所有链的尾项集合是线性无关的,因此这些循环子空间之和必然是直和
我们需要确定这些直和在一起是否填满了整个 $V$。

计算直和空间的维数:

$$ \sum (\text{每条链的长度}) = \sum_{k=1}^t k \times (\text{长度恰好为 } k \text{ 的链的个数}) $$

长度为 $k$的链也就对应$W_k$ 里的一串,$dimW_t$ 是何意味呢,我们看看:

  • 在 $W_t$里挑出的向量: 它们能往回追溯$t-1$步(因为在$\text{Im}\mathcal{B}^{t-1}$里),所以它们生成的是长度为$t$ 的最长链

  • 在 $W_{t-1}$但不在$W_t$里的向量: 它们只能往回追溯$t-2$步。它们生成的是长度为$t-1$的链。$\dim W_k$实际上是“长度$\ge k$ 的循环链”的数量。这让我们联想到期望公式,对于正整数的随机变量

$$ E(X) = \sum_{k=1}^{\infty} P(X \ge k) $$

那么当我们如法炮制把所有的 $\dim W_k$ 加起来时:

$$ \sum_{k=1}^t \dim W_k = \dim W_1 + \dim W_2 + \dots + \dim W_t $$

  • 长度为 $1$的链,只在$\dim W_1$ 中被数了 1 次

  • 长度为 $2$的链,在$\dim W_1$和$\dim W_2$ 中各被数了 1 次,共 2 次

  • 长度为 $k$的链,在$\dim W_1, \dots, \dim W_k$ 中各被数了 1 次,共 $k$ 次

所以
通过维数计算公式:

$$ \text{总维数} = \sum_{k=1}^t \dim W_k = \sum_{k=1}^t (\text{rank}(\mathcal{B}^{k-1}) - \text{rank}(\mathcal{B}^k)) $$

也就得到:

$$ \text{总维数} = \text{rank}(\mathcal{B}^0) - \text{rank}(\mathcal{B}^t) = \dim V - 0 = \dim V $$

Jordan 标准型

存在性

设 V 是有限维 K-线性空间, 𝒜 ∈ Hom V .若 𝒜 的特征多项式在域 K 上能分解成一次因式的乘积, 则存在 V 的一组基, 使得 𝒜 在此基下的矩阵为若当形矩阵.

证明:

把 $V$ 分解成

$$ V=\bigoplus_i Ker(A-\lambda_i I)^{r_i} $$

那么考虑在 $V_i=Ker(A-\lambda_i I)^{r_i}$上的限制映射$A|{V_i}=\lambda_i I|{V_i}+B_i$,则$B_i$是$V_i$上的幂零变换,由上我们知道可以把$V_i$分解成$B_i-$子空间的直和

$$ V_i=\bigoplus_j Z(\alpha_j,B_i) $$

对于 $V_{ij}=Z(\alpha_j,B_i)$,是$V_i$上的不变子空间,自然也是$A-$不变子空间,而且 $A$在这组基下的矩阵就是若当块,最后,把所有$V_{ij}$拼起来就得到全空间的直和分解,对应的$A$ 也就是若当型矩阵。

降幂排列的话,$1$ 就在右上角。

$k$ 级若当块的个数是

$$ n_k = \text{rank}(\mathcal{B}^{k-1}) - 2\text{rank}(\mathcal{B}^k) + \text{rank}(\mathcal{B}^{k+1}) $$

这是一个二阶差分,亦可以写作 $W$维数的一阶差分。实际上考虑$W$维数的一阶差分这是自然的,由于$W$代表了大于等于$k$的链,作差就得到长度恰为$k$ 的链。

或者也可以直接看做 $rank(J-\lambda I)^k$的二阶差分,实际上也就是$B$。对于$r$级的若当块$J_0$,不难发现$J_0^r=J_0^{r+1}=…=0$。所以$J^{k-1}秩-J^k秩$也就是级数大于等于$k$的若当块数量,也就对应$dimW$。再做差分也就得到恰好为$k$ 的若当块数量。


唯一性

与 $A$相似的若尔当矩阵,除了可以相差对角块的次序外,由$A$唯一确定,称为$A$ 的若尔当标准型。

首先,对对角块重排也就是乘上置换阵,当然还是相似的。

若尔当块的个数

$$ \text{rank}(J - \lambda I)^{k-1} - 2 \times \text{rank}(J - \lambda I)^k + \text{rank}(J - \lambda I)^{k+1} $$

( 当 $k=1$ 时,$(J - \lambda I)^{k-1}$需理解为单位矩阵$I$ )

这在此前我们已经详细阐述,直观的理解也就是

所以 $J_0$有多大,他就能撑住多少次的幂次,从而差分得到大于等于$k$的$J_0$,再差分就得到等于$k$ 的数目。

这实际上就直接给出了唯一性,考虑和 $A$相似的$J

$$ $UAU^{-1}=J $$

利用经典结论

$$ UA^kU^{-1}=J^k $$

得到多项式也相似,也就是

$$ U(A-\lambda I)^kU^{-1}=(J-\lambda I)^k $$

那么也就有

$$ rank(A-\lambda I)^k=rank(J-\lambda I)^k $$

从而利用若当块大小的结论,我们知道和 $A$ 相似的若尔当矩阵块的大小都一样,再利用相似知特征值一样,就锁定了若尔当标准型。

推论

矩阵相似当且仅当若尔当标准型一样(在重排意义下)。

若尔当矩阵的多项式和幂级数

利用0-若尔当矩阵的形式,我们可以把多项式写成一个漂亮的形式。

一般地,对角不是 $0$ ,$J_\lambda=\lambda I+J_0$,那么我们希望套用上面这样美丽的形式,就想到做一个泰勒展开变回$J_0

$$ $g(x)=g(\lambda)+g'(\lambda)(x-\lambda)+\frac{1}{2!}g''(\lambda)(x-\lambda)^2+...+\frac{1}{(r-1)!}g^{(r-1)}(\lambda)(x-\lambda)^{r-1}+... $$

记 $c_i$ 为泰勒展开对应的系数,也就有

这就化归了,形式仍然美丽。特别地,当 $g(J_\lambda)=0$时,只有可能所有的$c$都是$0$,此时$g(x)$只剩下对应的次数高于$r-1$ 的项了,换句话说,$(x-\lambda)^r | g(x)$ 。反面也很显然,所以这两个命题等价。

如果大的块是零矩阵,那么小的块自动已经为零,所以考虑 $J$ 的幂次是否为零,我们只需要考虑同一个特征值中最大的块。

从而其最小多项式也就是

$$ \prod_\lambda(x-\lambda)^{r_\lambda} $$

其中 $r_\lambda$是$\lambda$对应的最大的块的阶数,被称为稳定指数。利用相似,可知这也是$A$ 的最小多项式。

阅读全文

笔记5.线性变换 I——基本定义

线代 2026/5/6

首先,线性变换实际上是一种特殊的线性映射,定义域和陪域是同一个集合,所以我们关于线性映射的讨论仍然可以延续。

线性映射的核心定义

如果把一个空间 $U$映射到另一个空间$V$,要称之为“线性映射”,它必须恪守两个底线:

  • 可加性:先相加再映射,等同于映射后再相加,即 $\mathscr{A}(\alpha + \beta) = \mathscr{A}\alpha + \mathscr{A}\beta$。

  • 齐次性:缩放后的映射,等同于映射后再缩放,即 $\mathscr{A}(k\alpha) = k\mathscr{A}\alpha$。

    当这两个空间重合(即 $U = V$)时,我们通常称之为线性变换

基的像确定整个映射

对于从 $K^n$到$K^m$ 的映射,其操作的本质就是矩阵乘法

  • 标准基的作用:通过观察标准基向量(那些只有一位是 1,其余为 0 的向量)被映射后的去向,我们可以把这些结果纵向排列,构造出矩阵 $A$

  • 运算等价性:对向量 $x$进行线性映射,在计算层面等同于执行$Ax$。

设 $\mathscr{A}: \mathbf{K}^n \to \mathbf{K}^m$ 是线性映射

$$ \begin{bmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} \mapsto \color{green}{\begin{bmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{m1} \end{bmatrix}} , \quad \begin{bmatrix} 0 \\ 1 \\ \vdots \\ 0 \end{bmatrix} \mapsto \color{green}{\begin{bmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{m2} \end{bmatrix}} , \dots, \quad \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix} \mapsto \color{green}{\begin{bmatrix} a_{1n} \\ a_{2n} \\ \vdots \\ a_{mn} \end{bmatrix}} $$

$$ \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \mapsto \begin{array}{|cccc|} \hline \color{green}{a_{11}} & \color{green}{a_{12}} & \dots & \color{green}{a_{1n}} \\ \color{green}{a_{21}} & \color{green}{a_{22}} & \dots & \color{green}{a_{2n}} \\ \vdots & \vdots & & \vdots \\ \color{green}{a_{m1}} & \color{green}{a_{m2}} & \dots & \color{green}{a_{mn}} \\ \hline \end{array} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} $$

**$\mathscr{A}$ 在标准基下的矩阵也就是表出系数。

这是线性代数中极具力量的一个结论:只要确定了基底的去向,整个映射就彻底定死了。

  • 定理内涵:如果你给定空间 $U$的一组基${\alpha_1, \dots, \alpha_n}$,并随意指定它们在 $V$中对应的目标${\beta_1, \dots, \beta_n}$,那么世界上存在且仅存在一个线性映射 $\mathscr{A}$ 满足这个对应关系。

  • 构造逻辑

    1. 由于任何向量 $\alpha$都能唯一地写成基底的线性组合$\alpha = \sum k_i \alpha_i$。

    2. 我们利用线性的“可加性”和“齐次性”,强制定义映射结果为 $\mathscr{A}\alpha = \sum k_i \beta_i$。

    3. 这种定义方式保证了映射的良定义性(即一个输入对应唯一确定的输出)。

证明一下吧:

验证 $\mathscr{A}$ 是线性映射

为了证明我们构造的映射 $\mathscr{A}$(即通过基底像的组合定义的映射)是合法的线性映射,需要验证其满足可加性与齐次性。

已知条件:

设 $\alpha = k_1 \alpha_1 + \dots + k_n \alpha_n \in U$若$\alpha’ = l_1 \alpha_1 + \dots + l_n \alpha_n \in U$,则:

验证过程:

  • 可加性:

$$ \begin{aligned} \mathscr{A} (\alpha + \alpha') &= (k_1 + l_1) \beta_1 + \dots + (k_n + l_n) \beta_n \\ &= (k_1 \beta_1 + \dots + k_n \beta_n) + (l_1 \beta_1 + \dots + l_n \beta_n) \\ &= \mathscr{A} \alpha + \mathscr{A} \alpha' \end{aligned} $$

  • 齐次性:

$$ \mathscr{A} (l \alpha) = l k_1 \beta_1 + \dots + l k_n \beta_n = l \mathscr{A} \alpha $$


$\mathscr{A}$ 的唯一性

这部分证明了:一旦基底的像 ${\beta_i}$ 被确定,世界上不存在第二个不同的线性映射能达成同样的对应关系。

证明过程:

若有线性映射 $\mathscr{B}: U \to V$,也满足:

$$ \mathscr{B} \alpha_i = \beta_i, \quad \forall i $$

则对于空间中任意向量的映射结果:

$$ \begin{aligned} \mathscr{B} (k_1 \alpha_1 + \dots + k_n \alpha_n) &= k_1 \mathscr{B} \alpha_1 + \dots + k_n \mathscr{B} \alpha_n \\ &= k_1 \beta_1 + \dots + k_n \beta_n \\ &= \mathscr{A} (k_1 \alpha_1 + \dots + k_n \alpha_n), \quad \forall k_i \end{aligned} $$

于是:

$$ \mathscr{B} = \mathscr{A} $$

线性映射的运算

线性运算:加法与数乘

若 $\mathscr{A}, \mathscr{B}$是从$U$到$V$ 的线性映射,则可以定义:

  • 加法:$(\mathscr{A} + \mathscr{B}): \alpha \mapsto \mathscr{A}\alpha + \mathscr{B}\alpha$

  • 数乘:$k\mathscr{A}: \alpha \mapsto k(\mathscr{A}\alpha) \quad (k \in K)$

这两个运算的结果仍然是线性映射。

核心结论:从 $U$到$V$ 的全体线性映射在上述运算下构成一个线性空间,记作 $\text{Hom}(U, V)$

陪域上能作的运算映射也可以作


复合运算:映射的乘法

设 $\mathscr{B} \in \text{Hom}(U, V)$,$\mathscr{A} \in \text{Hom}(V, W)$。

  • 定义:$\mathscr{B}$与$\mathscr{A}$的复合映射$\alpha \mapsto \mathscr{A}(\mathscr{B}\alpha)$是从$U$到$W$ 的线性映射。

  • 记法:称为 $\mathscr{A}$与$\mathscr{B}$ 的乘积,记作 $\mathscr{A}\mathscr{B}$

  • 前提条件:$\mathscr{B}$的陪域与$\mathscr{A}$ 的定义域相同。

  • 结合律:$(\mathscr{A}\mathscr{B})\mathscr{C} = \mathscr{A}(\mathscr{B}\mathscr{C})$。


线性变换的代数结构

当映射发生在同一个空间上,即 $\mathscr{A}, \mathscr{B} \in \text{Hom}(V)$ 时,结构变得更加丰富:

  • $\text{Hom}(V)$(或记作 $\text{End}(V)$)上的线性变换不但能相加、数乘,还能作乘法运算。

  • 该乘法满足结合律、对加法的分配律,且存在单位元 $\mathscr{I}$(恒等变换)。

核心结论:$\text{Hom}(V)$ 构成一个 $K$-代数


算子运算实例:微分与乘法

定义在 $C^1(\mathbb{R})$ 上的变换:

  • 微分算子 $D$:$f(x) \mapsto f’(x)$- 乘法算子$S$:$f(x) \mapsto xf(x)$根据导数的乘法法则$(xf(x))’ = xf’(x) + f(x)$,可以推导出算子之间的关系:

$$ (DS - SD)f = (xf)' - xf' = f'x + f - xf' = f $$

即:$DS - SD = I$

这实际上是量子力学中正则对易关系在函数空间的数学原型。


几何变换实例:投影变换

沿 $W$向$U$的投影变换$\mathscr{P}_U$

  • 背景:空间 $V$可以分解为直和$V = U \oplus W$。

  • 定义:对于任何向量 $\alpha = \beta + \gamma$(其中 $\beta \in U, \gamma \in W$),投影算子将其映射为 $U$ 中的分量:

$$ \mathscr{P}_U: \alpha \mapsto \beta $$

  • 几何直观:所有平行于 $W$的向量被“压扁”到了平面$U$ 上。

投影变换的代数定义

当空间 $V$可以分解为直和$V = U \oplus W$时,任何向量$\alpha$都能唯一分解为$\alpha = \beta + \gamma$(其中 $\beta \in U, \gamma \in W$)。

  • 投影算子 $P_U$:定义为 $\alpha \mapsto \beta$。

  • 基本性质

    • 幂等性:$P_U^2 = P_U$(投射一次后再投射,结果不再改变)。

    • 正交互补性:$P_U P_W = 0$且$P_U + P_W = I$。

投影与幂等的等价性

这是线性代数中的一个优美结论:一个线性变换 $P$ 是投影变换,当且仅当它是幂等变换($P^2 = P$)。

  • 空间分解:若 $P^2 = P$,则整个空间 $V$ 必然可以分解为:

$$ V = \text{Im } P \oplus \text{Ker } P $$

  • 物理意义

    • $P$是沿$\text{Ker } P$向$\text{Im } P$ 的投影。

    • $I - P$则是反过来的“镜像”操作,即沿$\text{Im } P$向$\text{Ker } P$ 的投影。

证明

通过代数推导验证这种直和关系:

  • 不动点特性:在 $\text{Im } P$中的向量$\beta$,在 $P$ 的作用下“点点不动”($P\beta = \beta$)。

  • 零交集:通过 $P\beta = \beta$和$\beta \in \text{Ker } P \implies P\beta = 0$联立,证明了$\text{Im } P \cap \text{Ker } P = {0}$,从而满足直和的条件。

  • 全空间覆盖:利用恒等式 $\alpha = P\alpha + (I - P)\alpha$,说明任何向量都能拆分成这两个子空间的成员。

推广:空间的多项分解

这一部分将二元投影推广到了多个子空间的情形。

  • 定理(正向):如果 $V$是多个子空间的直和$V = V_1 \oplus \dots \oplus V_s$,那么必然存在一组投影算子 $P_1, \dots, P_s$,它们满足:

    1. 两两正交:$P_i P_j = 0 \quad (i \neq j)$

    2. 完备性:$\sum P_i = I$

    3. 像空间对应:$\text{Im } P_i = V_i$- 定理(逆向):反之,若一组算子满足上述三个条件,它们就定义了空间$V$ 的一个直和分解。

多项式与投影

此前,我们已经讨论过如下定理:

设 $f_1(x), \dots, f_s(x) \in K[x]$两两互素。记$f(x) = \prod_{i=1}^s f_i(x)$。对于 $A \in M_n(K)$,有:

$$ \text{Ker } f(A) = \text{Ker } f_1(A) \oplus \text{Ker } f_2(A) \oplus \dots \oplus \text{Ker } f_s(A) $$

这实际上给出了一组投影。

线性映射空间与矩阵空间的同构

结论:$\text{Hom}(U, V) \cong M_{m,n}(K)$

当我们分别为线性空间 $U$和$V$取定基底${\alpha_1, \dots, \alpha_n}$和${\beta_1, \dots, \beta_m}$时,每一个线性映射$\mathscr{A}$都唯一对应一个矩阵$A$。

  • 映射关系:$(\mathscr{A}\alpha_1, \mathscr{A}\alpha_2, \dots, \mathscr{A}\alpha_n) = (\beta_1, \beta_2, \dots, \beta_m)A$- 本质:这种对应不仅是双射,还保持了加法和数乘运算,意味着$\text{Hom}(U, V)$作为一个线性空间的结构,被矩阵空间$M_{m,n}(K)$ 完美“克隆”了。

基础矩阵与基本映射

正如矩阵空间有一组标准基 $E_{ij}$(仅在 $(i, j)$ 位置为 1,其余为 0),映射空间也有对应的基本映射

  • 定义:$E_{ij}: U \to V$,其作用规律为:

$$ E_{ij}(\alpha_k) = \begin{cases} \beta_i & k=j \\ 0 & k \neq j \end{cases} $$

  • 意义:这组基本映射构成了 $\text{Hom}(U, V)$ 的基底。这告诉我们,任何复杂的线性映射都可以拆解为这些“只把特定的输入基映射到特定的输出基”的简单动作的线性组合。

映射复合与矩阵乘法的等价性

这是线性代数中最关键的定理之一:映射的复合对应矩阵的乘法。

  • 定理描述

    设 $\mathscr{B}: U \to V$的矩阵是$B$,$\mathscr{A}: V \to W$的矩阵是$A$。

    那么复合映射 $\mathscr{AB}: U \to W$的矩阵恰好就是$AB$。

  • 逻辑演示

    通过观察基底像的传递过程:

$$ \begin{aligned} (\mathscr{AB}\alpha_1, \dots, \mathscr{AB}\alpha_n) &= \mathscr{A}((\beta_1, \dots, \beta_m)B) \\ &= ((\mathscr{A}\beta_1, \dots, \mathscr{A}\beta_m))B \\ &= ((\gamma_1, \dots, \gamma_s)A)B \\ &= (\gamma_1, \dots, \gamma_s)(AB) \end{aligned} $$


结合律的传递

  • 映射层面:映射的复合天然满足结合律,即 $(\mathscr{AB})\mathscr{C} = \mathscr{A}(\mathscr{BC})$。

  • 矩阵层面:基于上述等价性,矩阵乘法也必须满足结合律。

复合映射的像空间与维度公式

  • 核心定理

$$ \dim \text{Im } \mathscr{B} = \dim \text{Im } \mathscr{AB} + \dim(\text{Im } \mathscr{B} \cap \text{Ker } \mathscr{A}) $$

  • 证明逻辑

    1. 考察 $\mathscr{A}$在$\text{Im } \mathscr{B}$上的限制映射$\mathscr{A}’ : \text{Im } \mathscr{B} \to W$。

    2. 根据线性映射基本定理(第一同构定理):$\text{Im } \mathscr{B} / \text{Ker } \mathscr{A}’ \cong \text{Im } \mathscr{A}’$。

    3. 验证可知:$\text{Im } \mathscr{A}’ = \text{Im } \mathscr{AB}$,且 $\text{Ker } \mathscr{A}’ = \text{Im } \mathscr{B} \cap \text{Ker } \mathscr{A}$。

  • 推论(Sylvester 秩不等式)

    利用上述维数公式,可以推导出:

$$ \dim \text{Im } \mathscr{A} + \dim \text{Im } \mathscr{B} \leq \dim \text{Im } \mathscr{AB} + \dim V $$

对于矩阵形式,即:$\text{rank}(A) + \text{rank}(B) \leq \text{rank}(AB) + n$

_等号成立条件:$\text{Ker } \mathscr{A} \subseteq \text{Im } \mathscr{B}$,即 $A$的解空间包含于$B$ 的列空间。_

这在之前,我们曾用打洞法构造大矩阵证明过。


基变换与矩阵表示的演变

这是线性代数从“静态矩阵”向“动态变换”跨越的关键。

核心问题

当 $U$的基底从${\alpha_i}$变为${\alpha’_i}$(过渡矩阵为 $P$),$V$的基底从${\beta_j}$变为${\beta’_j}$(过渡矩阵为 $Q$)时,映射 $\mathscr{A}$ 的矩阵如何变化?

变换定理

若 $\mathscr{A}$在原基底下的矩阵为$A$,则在新基底下的矩阵为:

$$ \mathbf{B} = Q^{-1} A P $$

证明推导

  1. 关系式 1:$\mathscr{A}(\alpha_1 \dots \alpha_n) = (\beta_1 \dots \beta_m)A$

  2. 基变换:$(\alpha’_1 \dots \alpha’_n) = (\alpha_1 \dots \alpha_n)P$;$(\beta’_1 \dots \beta’_m) = (\beta_1 \dots \beta_m)Q \implies (\beta_1 \dots \beta_m) = (\beta’_1 \dots \beta’_m)Q^{-1}$

  3. 代入计算

$$ \begin{aligned} \mathscr{A}(\alpha'_1 \dots \alpha'_n) &= \mathscr{A}(\alpha_1 \dots \alpha_n)P \\ &= (\beta_1 \dots \beta_m)AP \\ &= (\beta'_1 \dots \beta'_m)Q^{-1}AP \end{aligned} $$

在线性变换的语境下,就自然出现了所谓相似,$A=PQP^{-1}$ 。相似描述的实际上也就是同一个线性变换在不同基的表现,相似的线性变换则有相同的秩、迹、特征多项式。

在最美妙的选取下,就会出现所谓标准型,分块地写成单位阵和0。

特征值与特征向量

那么类似地,我们希望得到一个变换最清晰的结构,也就如同考虑矩阵一般,我们考虑只被拉伸的向量,也就是 $\mathscr{A}\alpha=\lambda \alpha$,且$\alpha\neq 0$ ,同样这就对应特征值与特征向量。或者,我们可以写作

$$ \alpha\in Ker(A-\lambda I) $$

这则更方便我们运用线性空间的理论。那么特征子空间也就可以写作 $Ker(A-\lambda I)$。如果矩阵可以对角化,那就非常美好,而这等价于特征子空间铺满全空间,利用之前所证的特征子空间之间是直和就得到这也就是说$\mathbf{V}$是$A$的特征子空间的直和,而这等价于$A$ 的零化多项式能分解成互异的一次因式的乘积:

若 $\mathbf{V}$是$\mathcal{A}$ 的特征子空间的直和:

$$ \mathbf{V} = \text{Ker}(\mathcal{A} - \lambda_1 \mathbf{I}) \oplus \dots \oplus \text{Ker}(\mathcal{A} - \lambda_s \mathbf{I}), $$

则称线性变换 $\mathcal{A}$可对角化。设$\text{dim} \mathbf{V} = n$

$\Leftrightarrow \mathcal{A}$有$n$个线性无关的特征向量$\Leftrightarrow \mathcal{A}$的不同特征子空间的维数之和$= n$

$\Leftrightarrow \mathcal{A}$有一个零化多项式,能在$\mathbb{K}$ 上分解成互异的一次因式的乘积

我们可以看看微分算子

微分算子的特征值与特征子空间

例: 求 $C^\infty(\mathbb{R})$上的微分算子$D: f(x) \mapsto f’(x)$ 的特征值与特征子空间。

解:

若 $D f(x) = f’(x) = \lambda f(x)$,则有:

$$ (f(x)e^{-\lambda x})' = f'(x)e^{-\lambda x} - \lambda f(x)e^{-\lambda x} = 0 $$

由此可推导:

$$ \Rightarrow f(x)e^{-\lambda x} \equiv c \Rightarrow f(x) \equiv c e^{\lambda x}, c \in \mathbb{R} $$

结论:

故每个实数 $\lambda$都是$D$ 的特征值,且其对应的特征子空间为:

$$ \text{Ker}(D - \lambda I) = \langle e^{\lambda x} \rangle $$


广义特征子空间升链

一般地,对于微分算子 $D$,存在广义特征子空间升链 (Ascending Chain of Generalized Eigenspaces)

$$ \{0\} \subset \text{Ker}(D - \lambda I) \subset \text{Ker}(D - \lambda I)^2 \subset \dots $$

$$ \dots \subset \text{Ker}(D - \lambda I)^n = e^{\lambda x} \mathbb{R}[x]_n $$

该空间的基可以表示为:

$$ = \langle e^{\lambda x}, x e^{\lambda x}, \dots, x^{n-1} e^{\lambda x} \rangle $$

但是正如之前所知道的,矩阵并不总是都能对角化,或者说特征子空间并不总是可以铺满整个空间,这如何做呢?联想到之前的零化多项式给出全空间分解,我们如果能找到一个 $A$ 的零化多项式就好了。利用在数学随笔之伴随矩阵那证明的Hamilton Cayley定理,也就找到了理想的零化多项式:

$$ \prod_{i=1}^k(A-\lambda_iI)^{r_i}=0 $$

也就是说:

$$ V=\bigoplus_{i=1}^k Ker(A-\lambda_iI)^{r_i} $$

这也就是所谓广义特征子空间的来源,他们的直和给出了全空间。但我们之前的对 Hamilton Cayley 定理的证明太过莫名其妙,而且不够有结构的味道,下一篇笔记将从线性空间的角度自然地得到这些结论。

阅读全文

笔记6.线性变换 II——从不变子空间到 Hamilton Cayley 到主分解定理

线代 2026/5/6

不变子空间

对于不可对角化的矩阵,我们也希望有一个类似对角化的解剖刀,把矩阵割成互不干扰的片段,好让我们清晰地看到结构。例如特征子空间,彼此互不干扰,又作为子空间封闭。

我们希望从这样的空间抽象出一种相对普适的子空间,也就是所谓不变子空间:

设 $\mathscr{A} \in Hom(V)$ ,$W$是$V$的子空间。若$\forall \alpha \in W, \mathscr{A}\alpha \in W$,则称$W$是$A$-(不变)子空间。例如 $V$ ,${0}$,以及$ImA,KerA$ ,还有广义特征子空间。

性质

回忆起之前,我们证明过两个可对角化的矩阵如果可交换,他们可以同时对角化,这实际上蕴藏了更深一些的东西。

若线性变换 $A,B$可以交换,那么$KerB,ImB$都是$A$ 不变子空间。

$$ AB=BA $$

考虑 $B\alpha=0$则$B(A\alpha)=A(B\alpha)=0$,故$A\alpha\in KerB$ 。
考虑 $\alpha=B\beta$,则$A(B\beta)=B(A\beta)\in ImB$ 。

此外,还有一些简单的线性关系。

不变子空间的交、和还是不变子空间

设 $U,W$是$A$ 的不变子空间。

取 $\alpha\in U+W$,那么$\alpha=u+w$,作用一下$A$得到$A\alpha=Au+Aw$,由条件$Au,Aw$还在原空间,故$A\alpha\in U+W$ 。
取 $\alpha\in U \cap W$,那么$\alpha\in U\implies A\alpha\in U$,同理$A\alpha\in W$,所以$A\alpha\in U\cap W$ 。

限制变换

那么,要拆解线性变换,我们就可以考虑线性变换在不变子空间上的作用,我们做所谓的限制变换,也就是把线性变换的定义域限制缩小到不变子空间上。

于是就会得到非常美丽的分块的形式。那么我们可以进一步地考虑这两个矩阵都蕴含了什么。

我们把 $A’$叫做诱导矩阵,它诱导了$V/W$ 上的线性变换。

$$ A':\alpha+W\mapsto A\alpha+W $$

当把 $W$商掉,我们也就只剩下$A’$了,所以对应的映射也就是直接乘$A$ 。

这样也就得到一个局部作用的矩阵,和全局的线性变换有什么联系呢?

限制在不变子空间的限制变换的特征多项式整除原变换的特征多项式

好,那么既然不变子空间这么好,我们怎么找呢?之前提到特征子空间是不变子空间,那我也只能求出特征向量,万一不可对角化要如何找到广义特征子空间的基呢,一个想法是再乘乘 $A-\lambda I$,这样的话对于原来的已经在$Ker(A-\lambda I)^2$中的$\alpha$,我们再乘一个之后也就到了一次因式的核中,因为$(A-\lambda I)((A-\lambda I)\alpha)$由结合律也就是$0$ 。类比这样的想法,我们有所谓循环子空间的思考。

循环子空间

设 $\mathcal{A}$是$K$-线性空间 $V$ 上的线性变换,$0 ≠ α \in V$。考察 $\mathcal{A}$作用下与$α$ 相关的向量

此时必存在整数 $r ≥ 1$,使得

$$ α, \mathcal{A}α, \dots, \mathcal{A}^{r-1}α $$

线性无关

$$ α, \mathcal{A}α, \dots, \mathcal{A}^{r-1}α, \mathcal{A}^rα $$

线性相关。那么注意到这样的形式,如果我们再用 $\mathcal{A}$ 去作用,自然也是类似的形式,对于更高的幂次总可由线性相关而得到一个被低幂次组合表示的结果,所以我们就构造了一个不变子空间。

对上述的线性相关,有 $b_1, \cdots, b_r \in K$,使得

$$ \mathcal{A}^r\alpha + b_1\mathcal{A}^{r-1}\alpha + \cdots + b_r\alpha = 0 . $$

记 $g(x) = x^r + b_1x^{r-1} + \cdots + b_r$,则有

$$ g(\mathcal{A})\alpha = 0 . $$

$W = \langle \alpha, \mathcal{A}\alpha, \cdots, \mathcal{A}^{r-1}\alpha \rangle$是包含$\alpha$的最小$\mathcal{A}$-子空间,称为由 $\alpha$ 生成的 $\mathcal{A}$-循环子空间

若 $\mathcal{A}^r\alpha = 0$,称 $W$ 为强循环子空间
从这里,实际上我们可以轻松地证明 Hamilton Cayley 定理,我们先考虑这样一个引理。

限制变换 $\mathcal{A}|W$在$\alpha, \cdots, \mathcal{A}^{r-1}\alpha$下的矩阵$B

$$ $\mathcal{A}|W (\alpha, \mathcal{A}\alpha, \cdots, \mathcal{A}^{r-1}\alpha) = (\mathcal{A}\alpha, \mathcal{A}^2\alpha, \cdots, \mathcal{A}^r\alpha) $$

$$ B = \begin{bmatrix} 0 & 0 & \cdots & 0 & -b_r \\ 1 & 0 & \cdots & 0 & -b_{r-1} \\ 0 & 1 & \cdots & \vdots & \vdots \\ \vdots & \vdots & \ddots & 0 & -b_2 \\ 0 & 0 & \cdots & 1 & -b_1 \end{bmatrix} $$

其中 $B$为 Frobenius 矩阵。$\mathcal{A}|W$ 的特征多项式为:

$$ |x I_r - B| = x^r + b_1x^{r-1} + \cdots + b_r = g(x) $$

神奇的事情发生了,这恰好是零化多项式,而由于零化多项式必定有特征值为根,所以这就是最小多项式。这个系数就是从零化多项式抄来的。

也就是说,我们限制在这个循环子空间的特征多项式能让矩阵零化!

Hamilton Cayley 定理

我们由限制变换的特征多项式整除原来的特征多项式,不妨设 $g(x)$是限制变换的特征多项式,$f(x)$是原来的特征多项式,就有$f(x)=h(x)g(x)$,代入$A$(环同构) 就有$f(A)\alpha=h(A)g(A)\alpha$,让这个$g$对应$\alpha$的循环子空间,那么就得到等式等于$0$ 。

换句话说, $\forall \alpha \in V, f(A)\alpha=0$,这说明说明$Kerf(A)$张成$V$,那也只有可能$f(A)=0$ 。这也就是所谓 Hamilton Cayley 定理,矩阵的特征多项式是矩阵的零化多项式。

可以看到,并不需要什么伴随矩阵,构造一坨莫名其妙的东西然后进行莫名其妙的运算,这是结构倒逼的必然的结果。

得到零化多项式,我们说过,也就得到了全空间的分解,而且这个分解相当细致。

根子空间分解

若 $\mathcal{A}$的特征多项式在域$K$ 上有分解:

$$ f_{\mathbf{A}}(x) = (x - \lambda_1)^{n_1} (x - \lambda_2)^{n_2} \cdots (x - \lambda_s)^{n_s} $$

由 Hamilton Cayley 定理,则

$$ V = V_1 \oplus V_2 \oplus \cdots \oplus V_s $$

其中

$$ V_i = \text{Ker}(\mathcal{A} - \lambda_i I)^{n_i} $$

称为 $\lambda_i$ 的根子空间 (Generalized Eigenspace)。

但是我们可以想想,也许这些根子空间有一定的冗余,我们并不需要这么高的次数就可以让 $A$ 零化。

最小多项式

1. 最小多项式的概念

在线性变换 $\mathcal{A}$的所有零化多项式中,次数最小且首一的多项式称为$\mathcal{A}$的最小多项式,记为$m_{\mathcal{A}}(x)$或$m(x)$。

知道 $m_{\mathcal{A}}(x)$,就掌握了 $\mathcal{A}$ 的所有零化多项式。


2. 最小多项式的性质

命题 1:设 $g(x) \in K[x]$。则

$g(\mathcal{A}) = 0$当且仅当$m_{\mathcal{A}}(x) \mid g(x)$- 证明思路:设$g(x) = q(x)m_{\mathcal{A}}(x) + r(x)$,其中 $\deg r(x) < \deg m_{\mathcal{A}}(x)$。

  • 则 $r(\mathcal{A}) = 0$。由此推出 $r(x) = 0$。

  • 推论:$\mathcal{A}$的最小多项式$m_{\mathcal{A}}(x)$ 唯一;$m_{\mathcal{A}}(x)$整除$\mathcal{A}$的特征多项式$f_{\mathcal{A}}(x)$。

命题 2:若 $\lambda \in K$是$\mathcal{A}$的特征值,则$m_{\mathcal{A}}(\lambda) = 0$。

  • 证明:若 $\lambda \in K$是$\mathcal{A}$的特征值,则存在$\alpha \in V, \alpha \neq 0$,使得 $\mathcal{A}\alpha = \lambda\alpha$。

  • 于是 $0 = m_{\mathcal{A}}(\mathcal{A})\alpha = m_{\mathcal{A}}(\lambda)\alpha \implies m_{\mathcal{A}}(\lambda) = 0$。


3. 最小多项式与特征多项式的关系

小结:若 $\mathbf{A}$的特征多项式在$K$ 上有分解

$$ f_{\mathbf{A}}(x) = (x - \lambda_1)^{n_1} \cdots (x - \lambda_s)^{n_s} $$

则 $\mathbf{A}$ 最小多项式的因式分解为

$$ m_{\mathbf{A}}(x) = (x - \lambda_1)^{r_1} \cdots (x - \lambda_s)^{r_s} $$

其中 $1 \le r_i \le n_i$。


4. 最小多项式判定对角化

判定准则

设 $V$是$K$-线性空间,$\mathcal{A} \in \text{Hom}(V)$。则 $\mathcal{A}$可对角化,当且仅当$\mathcal{A}$的最小多项式在$K$ 上能完全分解且无重根,即:

$$ m_{\mathcal{A}}(x) = (x - \lambda_1) \cdots (x - \lambda_s) $$

其中 $\lambda_1, \dots, \lambda_s \in K$是$\mathbf{A}$ 互异的特征值。

证明:

$\mathcal{A}$在域$K$ 上可对角化,即:

$$ V = \text{Ker}(\mathcal{A} - \lambda_1 I) \oplus \dots \oplus \text{Ker}(\mathcal{A} - \lambda_s I) $$

($\lambda_i \in K$是$\mathcal{A}$互异的特征值)$\iff V = \text{Ker}[(\mathcal{A} - \lambda_1 I) \dots (\mathcal{A} - \lambda_s I)]$(互素性)$\iff (\mathcal{A} - \lambda_1 I) \dots (\mathcal{A} - \lambda_s I) = 0$

$\iff (x - \lambda_1) \dots (x - \lambda_s)$是$\mathcal{A}$次数最小的零化多项式,即$m_{\mathcal{A}}(x)$。


5.最小多项式决定 $K[\mathcal{A}]$的结构$\mathcal{A}$的最小多项式决定$K[\mathcal{A}]$ 的结构:

  • 首先,$I, \mathcal{A}, \cdots, \mathcal{A}^{d-1}$构成$K$-线性空间 $K[\mathcal{A}]$的基,这里$d = \deg m_{\mathcal{A}}(x)$。

  • 其次,映射 $\sigma : K[x] \to K[\mathcal{A}]

$$ $g(x) \mapsto g(\mathcal{A}) $$

是环的满同态,$\text{Ker } \sigma$为$m_{\mathcal{A}}(x)$ 的全体倍式。

  • 故剩余类环 $K[x] / (m_{\mathcal{A}}(x)) \cong K[\mathcal{A}]$。

6.最小多项式不随数域扩张改变

首先当然扩张完还是零化多项式。

然后证明扩张不会让零化多项式次数降低。

设 $I, \mathcal{A}, \dots, \mathcal{A}^{d-1}$构成$K[\mathcal{A}]$的,其中$d = \deg m_A(x)$。

  • 这说明在 $K$视角下,这$d$ 个算子是线性无关的。

  • 线性无关是一个“硬”性质。如果一组向量在小域上无关,它们在大域上依然无关

  • 因此,在 $F$上,这$d$个算子${I, \mathcal{A}, \dots, \mathcal{A}^{d-1}}$ 也必须是线性无关的。

  • 既然它们无关,那么任何次数小于 $d$的多项式$h(A)$(即这些算子的线性组合)就不可能等于 $0$。

主分解定理

设 $\mathcal{A}$是$K$上的线性变换,其最小多项式$m(x)$在域$K$ 上分解为:

$$ m(x) = (x - \lambda_1)^{r_1} \cdots (x - \lambda_s)^{r_s} $$

则全空间 $V$可以唯一地分解为$\mathcal{A}$ 的根子空间直和

$$ V = \text{Ker}(\mathcal{A} - \lambda_1 I)^{r_1} \oplus \cdots \oplus \text{Ker}(\mathcal{A} - \lambda_s I)^{r_s} $$

当幂次达到 $r_1$后,再增加幂次(如$r_1+1$),$\text{Ker}$的维数将不再增长。这个稳定的空间就是$\lambda_1$ 的根子空间

这就是为什么要学多项式环,多项式的因子决定了空间的子块
同时这正好是投影

记 $f_i(x) = (x - \lambda_i)^{r_i}, F_i(x) = \prod_{j \neq i} (x - \lambda_j)^{r_j};$则$(f_i(x), F_i(x)) = 1,$故存在$u_i(x), v_i(x) \in \text{K}[x],$

使得

$$ u_i(x)f_i(x) + v_i(x)F_i(x) = 1. $$

令 $h_i(x) = v_i(x)F_i(x) = 1 - u_i(x)f_i(x).$
$V_i = \text{Ker}(\mathcal{A} - \lambda_i I)^{r_i}$,则$\mathcal{P}_i = h_i(\mathcal{A})$是向$V_i$的正则投影,保持$V_i$中的向量点点不动,同时将其余的$V_j \ (j \neq i)$都变为$0.$- 在$V_i$ 上:

任何 $\alpha \in V_i$都满足$(\mathcal{A} - \lambda_i I)^{r_i} \alpha = 0$,即 $f_i(\mathcal{A})\alpha = 0$。

回到定义式:$\mathcal{P}_i = I - u_i(\mathcal{A})f_i(\mathcal{A})$。

作用于 $\alpha$ 时:$\mathcal{P}_i \alpha = I\alpha - u_i(\mathcal{A})(0) = \alpha$。

这解释了为什么它 **“保持 $V_i$ 中的向量点点不动”**。
  • 在 $V_j (j \neq i)$ 上:

    任何 $\beta \in V_j$满足$f_j(\mathcal{A})\beta = 0$。由于 $F_i(x)$包含了除$f_i(x)$以外所有的因子,所以$f_j(x)$必然是$F_i(x)$ 的因式。

    因此 $F_i(\mathcal{A})\beta = 0$。

    由于 $\mathcal{P}_i = v_i(\mathcal{A})F_i(\mathcal{A})$,作用于 $\beta$ 时:$\mathcal{P}_i \beta = v_i(\mathcal{A})(0) = 0$。

    这解释了为什么它 “将其余的 $V_j$ 都变为 0”

这给出的分解对不变子空间也成立:

定理: 设 $V = V_1 \oplus \dots \oplus V_s$是线性变换$\mathcal{A} \in \text{Hom}(V)$ 的根子空间分解。

则任意 $\mathcal{A}$-子空间 $W$ 都有不变子空间分解

$$ W = W_1 \oplus \dots \oplus W_s, \quad W_i = W \cap V_i $$


故 $\mathcal{A}$-子空间 $W$的计算可归结为根子空间$V_i$中$\mathcal{A}$-子空间 $W_i$ 的计算。


证: 设 $\mathcal{P}_i$是向$V_i$所做的投影变换,将其余$V_j \ (j \neq i)$都变为$0$,则如前 $\mathcal{P}_i$可写成$\mathcal{A}$的多项式$h_i(\mathcal{A})$。

故 $W$是$\mathcal{P}_i = h_i(\mathcal{A})$ 的不变子空间,$\mathcal{P}_i W \subseteq W$.

对任意 $\alpha \in W$,有

$$ I\alpha = \mathcal{P}_1 \alpha + \mathcal{P}_2 \alpha + \dots + \mathcal{P}_s \alpha, $$

其中 $\mathcal{P}_i \alpha = h_i(\mathcal{A})\alpha \in W \cap V_i$。于是

$$ W \subseteq (W \cap V_1) + \dots + (W \cap V_s). $$

反方向包含关系,直和关系显然。

阅读全文

笔记8.从λ-矩阵到Jordan标准型、有理标准型

线代 2026/5/6

我们介绍一种推导计算若当标准型与有理标准型的新方法, 它是模的理论衍化而来的 $\lambda$-矩阵法的改进.在 $\lambda$-矩阵方法的发展历史中, 字符 $\lambda$承载了过多的历史使命: 它既当做多项式的变元, 又表示矩阵的特征值, 在早期甚至还用来代表线性变换. 故在下面的讨论中,$\lambda$ 只用来表示矩阵的特征值,多项式的变量统一用字符 x 表示。

鉴于并不很熟悉,将更多以教材似的铺陈为主,而非有很明确的主线串一起。

$x$-矩阵及其运算

设 $K$ 是一个域,$x$是一个字符. 若一个矩阵的元素都是$K[x]$里的多项式,则称该矩阵为$x$-矩阵. 为了与普通数字矩阵相区分,我们下面用 $A(x), B(x), \cdots$表示$x$-矩阵,$x$-向量.

像普通矩阵一样,$x$-矩阵也可以作加法,乘法以及与 $K[x]$ 中多项式的“数乘”,也有行列式,代数余子式和可逆的概念.

例:若 $A \in M_n(K)$,则 $xI_n - A$是$x$-矩阵,称为 $A$的特征矩阵;其行列式$|xI_n - A|$就是$A$ 的 特征多项式

既然分量是多项式,我们自然考虑对应的数论关系,对一个多项式 $d(x)$,如果两个x-向量每个分量的差都是$d(x)$的倍式,就说他们模$d(x)$ 同余。

同时我们可以如上把一个x-向量拆成若干个向量以x幂次为系数的线性组合,例如 $L(x)$是一个x-向量,对任意的$\lambda$ 显然可以唯一表示成

$$ L(x)\equiv \sum_{i=1}^{r} \alpha_i(x-\lambda)^{i-1} \pmod{(x-\lambda)^r} $$

那么想让右侧为 $0$ ,也只有

$$ \forall i,\alpha_i=0 $$

我们会发现这和上个笔记中提到的 $g(\lambda)$被$(x-\lambda)^r$整除的等价条件非常像,同时注意到乘上一个$(x-\lambda)$会让每个向量后移一个,例如$\alpha_0$ 就没了,$\alpha_1$对应原来$\alpha_2$对应的$(x-\lambda)^2$所以这应该就对应了一个循环子空间,或者说对应了一个$Jordan$ 块。

引理

设 $A \in M_n(K)$,$\lambda \in K$是$A$的一个特征值。设存在一个$n$维$x$-列向量 $L(x)$,满足 $L(\lambda) \neq 0$ 且:

$$ (A - xI) L(x) \equiv 0 \pmod{(x - \lambda)^r} $$

那么如上方写成

$$ L(x) = \alpha_1 + \alpha_2(x - \lambda) + \cdots + \alpha_r(x - \lambda)^{r-1} \pmod{(x - \lambda)^r} $$

其中,系数向量 $\alpha_i \in K^n$。

那么

  • 生成的空间:记 $V = \langle \alpha_r, \alpha_{r-1}, \dots, \alpha_1 \rangle$,则 $V$是一个由$\alpha_r$ 生成的 $(A - \lambda I)$-强循环子空间

  • 循环基(Jordan 链):这组向量满足以下递推关系:

$$ \begin{cases} \alpha_{r-1} = (A - \lambda I)\alpha_r \\ \alpha_{r-2} = (A - \lambda I)\alpha_{r-1} = (A - \lambda I)^2\alpha_r \\ \vdots \\ \alpha_1 = (A - \lambda I)^{r-1}\alpha_r \end{cases} $$

  • 重要性质:尾项 $\alpha_1 = L(\lambda)$恰好是$A$对应于特征值$\lambda$的一个特征向量(因为$(A-\lambda I)\alpha_1 = 0$),且根据前提 $\alpha_1 \neq 0$。

证明

首先,我们先凑出 $(x-\lambda)$ :

$$ (A-x I)L(x)=(A-\lambda I-(x-\lambda)I)L(x)\equiv 0\pmod{(x-\lambda)^r} $$

写开 $L(x)$ 也就是

$$ ((A - \lambda I) - (x - \lambda)I) \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_r \end{bmatrix} \begin{bmatrix} 1 \\ x - \lambda \\ \vdots \\ (x - \lambda)^{r-1} \end{bmatrix}\equiv 0 \pmod{(x - \lambda)^r} $$

用分配律拆开

$$ ((A - \lambda I) \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_r \end{bmatrix} - \begin{bmatrix} 0 & \alpha_1 & \cdots & \alpha_{r-1} \end{bmatrix} ) \begin{bmatrix} 1 \\ x - \lambda \\ \vdots \\ (x - \lambda)^{r-1} \end{bmatrix}\equiv 0 \pmod{(x - \lambda)^r} $$

第二项实际上也就是一个 $J_0$ 的形式

$$ \begin{bmatrix} 0 & \alpha_1 & \cdots & \alpha_{r-1} \end{bmatrix}= \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_r \end{bmatrix} \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ & & & 0 \end{bmatrix} . $$

这对任意 $x$ 都成立,所以只有

$$ (A - \lambda I) \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_{r-1} & \alpha_r \end{bmatrix} = \begin{bmatrix} \alpha_1 & \alpha_2 & \cdots & \alpha_r \end{bmatrix} \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ & & & 0 \end{bmatrix} . $$

故有:

$$ \alpha_{r-1} = (A - \lambda I) \alpha_r , $$

$$ \alpha_{r-2} = (A - \lambda I) \alpha_{r-1} = (A - \lambda I)^2 \alpha_r , $$

$$ \cdots \quad \cdots $$

$$ \mathbf{\alpha_1} = (A - \lambda I) \alpha_2 = (A - \lambda I)^{r-1} \alpha_r \neq 0 , $$

以及

$$ (A - \lambda I) \alpha_1 = (A - \lambda I)^r \alpha_r = 0 . $$

直接长出了一条循环子空间的链。

设 $A(x)$是$n$级$x$-矩阵. 若存在 $n$级$x$-矩阵 $B(x)$, 使得

$$ A(x)B(x) = B(x)A(x) = I_n , $$

则称 $x$-矩阵 $A(x)$可逆. 满足以上条件的$B(x)$由$A(x)$唯一确定, 称为$A(x)$的逆, 记为$A(x)^{-1}$.

例如

$$ \begin{bmatrix} 1 & 0 & 0 \\ 3 & 1 & 0 \\ x+1 & 1 & -1 \end{bmatrix} \begin{bmatrix} 1 & 0 & 0 \\ -3 & 1 & 0 \\ x-2 & 1 & -1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} $$


引理: $n$级$x$-矩阵 $A(x)$可逆当且仅当$|A(x)|$是$K$ 中非零的数.

证: 若有 $x$-矩阵 $B(x)$, 使得 $A(x)B(x) = I_n$.

两边取行列式, 得 $|A(x)||B(x)| = 1$.

因为 $|A(x)|, |B(x)| \in K[x]$, 由它们乘积为 1 可以推出 $|A(x)|, |B(x)|$ 必须是零次多项式, 即非零常数.

反之, 若 $|A(x)| = d$是域$K$ 中非零的数.

记 $A(x)^$为$A(x)$的伴随矩阵, 则$\frac{1}{d}A(x)^$也是$x$-矩阵, 且满足

$$ A(x) \frac{1}{|A(x)|} A(x)^* = \frac{1}{|A(x)|} A(x)^* A(x) = I_n . $$

故 $x$-矩阵 $A(x)$可逆, 且$A(x)^{-1} = \frac{1}{d} A(x)^*$.

由此也可以有个简单的推论,$A(x)$可逆那么随便带入一个$x=k$ ,矩阵当然还是可逆。

初等因子与不变因子

初等变换

不难想到,应该也有类似的初等行列变换,但多项式有所不同。最核心的区别在于:“除法”受限了。- 在 $x$-矩阵中,如果你给某行乘以 $x$,其逆操作将是“除以 $x$”。但 $1/x$不是多项式(不属于$K[x]$)。第二类变换只能乘以非零常数(即 $K[x]$ 中的可逆元),否则它就不是初等变换,会改变矩阵的本质属性(如阶数和秩)。



想到上面的结论,如果我们模掉初等因子,是不是可以找到其对应的一个 Jordan 块。

若当(Jordan)标准型的存在性

若 $A \in M_n(K)$的特征多项式在域$K$上能分解成一次因式的乘积,则存在可逆矩阵$U \in M_n(K)$,使得 $U^{-1}AU$ 是若当形矩阵。


证明过程

由上,对 $A \in M_n(K)$,总存在可逆的 $x$-矩阵 $P(x), Q(x)$,使得:

$$ (xI - A)Q(x) = P(x)^{-1} \begin{bmatrix} c_1(x) & & \\ & \ddots & \\ & & c_n(x) \end{bmatrix} \quad (1) $$

设 $(x - \lambda)^r$是$A$的来自$c_i(x)$的一个初等因子。记$Q(x)$的第$i$列为$Q_i(x)$。比较 (1) 式第 $i$ 列得:

$$ (xI - A)Q_i(x) \equiv 0 \pmod{(x - \lambda)^r} \quad (2) $$

将 $Q_i(x)$的分量展开成$x - \lambda$ 的多项式,将其写成:

$$ Q_i(x) \equiv \alpha_1 + (x - \lambda)\alpha_2 + \cdots + (x - \lambda)^{r-1}\alpha_r \pmod{(x - \lambda)^r} \quad (3) $$

这里 $\alpha_1, \dots, \alpha_r$是$K^n$中的列向量。注意两侧带入$x=\lambda$可知尾项$\alpha_1$是可逆数字矩阵$Q(\lambda)$的第$i$列$Q_i(\lambda)$,故 $\alpha_1 \neq 0$。

对以上 (2), (3) 式应用引理,我们发现:

$$ V_{i,\lambda} = \langle \alpha_r, \alpha_{r-1}, \dots, \alpha_1 \rangle \subseteq \text{Ker}(A - \lambda I)^r $$

是 $A - \lambda I$的一个由$\alpha_r$生成的$r$维强循环子空间,且$\alpha_1 = Q_i(\lambda)$是$V_{i,\lambda}$ 一组循环基的尾项。


现考察同属特征值 $\lambda$但来自不同对角元$c_i(x)$ ($1 \le i \le n$) 的初等因子:$(x - \lambda)^{r_1}, (x - \lambda)^{r_2}, \dots$。它们给出的子空间 $V_{i,\lambda}$都是$(A - \lambda I)$-强循环子空间。这些空间循环基的尾项来自可逆矩阵 $Q(\lambda)$的不同列$Q_i(\lambda)$,故这些尾项线性无关,所以当 $\lambda$固定时,子空间$V_{i,\lambda}$ ($1 \le i \le n$) 之间是直和,我们记此直和为 $V_\lambda$,即 $V_\lambda = \bigoplus_{1 \le i \le n} V_{i,\lambda}$(只取非零的 $V_{i,\lambda}$)。

注意 $V_\lambda \subseteq \text{Ker}(A - \lambda I)^{r_\lambda}$,这里 $r_\lambda$表示属于特征值$\lambda$ 的所有初等因子的最高次数。

当 $\lambda$取遍$A$的不同特征值时,广义特征子空间$\text{Ker}(A - \lambda I)^{r_\lambda}$之间都是直和关系,故其子空间$V_\lambda$之间也为直和关系。再结合$V_\lambda$的定义知$A$的全部初等因子给出的子空间$V_{i,\lambda}$ ($\forall i, \lambda$) 之和是直和。

最后说明这个直和就是 $K^n$每个子空间$V_{i,\lambda}$的维数等于其对应初等因子的次数。由于$A$的特征多项式在域$K$上能分解成一次因式的乘积,故$A$的全体初等因子的次数和等于$n$。比较直和的维数,得:

$$ \bigoplus_{\lambda, i} V_{i,\lambda} = \bigoplus_\lambda V_\lambda = K^n $$

(同上,只取非零的 $V_{i,\lambda}$ 作直和)。

这就完成了证明,还顺便给出了一种构造。


注:比较各子空间

$$ V_\lambda = \bigoplus_{1 \le i \le n} V_{i,\lambda} \subseteq \text{Ker}(A - \lambda I)^{r_\lambda} \quad \text{及} $$

$$ K^n = \bigoplus_\lambda \bigoplus_{1 \le i \le n} V_{i,\lambda} \subseteq \bigoplus_\lambda \text{Ker}(A - \lambda I)^{r_\lambda} \subseteq K^n $$

的维数,我们发现:

$$ V_\lambda = \bigoplus_{1 \le i \le n} V_{i,\lambda} = \text{Ker}(A - \lambda I)^{r_\lambda} $$

(取非零的 $V_{i,\lambda}$作直和)就是$A$的根空间,其维数等于属于$\lambda$的所有初等因子的次数和,即特征值$\lambda$的代数重数。当$\lambda$取遍$A$ 的特征值时, 我们又得到主分解定理

$$ \bigoplus_\lambda V_\lambda = \bigoplus_\lambda \text{Ker}(A - \lambda I)^{r_\lambda} = K^n . $$

这样就得到了另一条路线的结论。

示例




蓝色的向量就是 $Q$对应的列直接令$x=\lambda$ 得到的尾项,据此我们可以写出完整的链。

我们可以看到,每个初等因子 $(x-\lambda)^r$都给出了一个$r$ 维的强循环子空间,这和若当块一一对应。所以求出初等因子,我们也就得到了若当块的全部,形状加上特征值。回忆起在上次笔记中提到,相似等价于若当标准型相同,于是也就得到等价于初等因子相同。

不变因子与有理标准型

如果 A , B ∈ $M_n(K)$ 的特征多项式不能在域 K上分解成一次因式的积, 或因式分解很难计算,怎么判断 A , B 是否相似, 如何求过渡矩阵 ?

友阵

先做一点铺垫,从我们熟知的循环子空间开始,由于维度限制,会得到

$$ \beta,A\beta,...,A^{v-1}\beta $$

线性无关但是

$$ \beta,...,A^v\beta $$

线性相关,那么也就得到一个零化多项式

$$ \beta+A\beta+...+A^v\beta=0 $$

记 $d(x)=x^v+b_1x^{v-1}+…+b_v$也就是$A$ 的零化多项式,而且是最小多项式。$A$ 在这个空间的限制映射,我们也知道,形式优美

而且他的特征多项式也就是 $d(x)$。这就称$B$是$d(x)$ 的友阵

之前我们把 $L(x)$展开成$(x-\lambda)$的幂次再去作用,但是变化未必可以分解成如此漂亮的一次因式,现在我们考虑在模$d(x)$ 的情况下直接作用。

引理

设 $A \in M_n(K)$,$d(x)$为$v \ge 1$次首一多项式。又设有列向量$\beta_1, \dots, \beta_v \in K^n$,使得

$$ (A - xI)(\beta_1 + x\beta_2 + \dots + x^{v-1}\beta_v) \equiv 0 \pmod{d(x)}. $$

$$ \langle \beta_1, \beta_2, \dots, \beta_v \rangle = \langle \beta_v, A\beta_v, \dots, A^{v-1}\beta_v \rangle $$

且 $d(A)\beta_v = 0$。

注: 光凭以上条件还不足以推出 $\beta_1, \dots, \beta_v$ 线性无关。


证明

设 $d(x) = x^v + b_1x^{v-1} + \dots + b_v \in K[x]$,并记 $X = [1, x, x^2, \dots, x^{v-1}]^T$,则

$$ (A - xI)(\beta_1 + x\beta_2 + \dots + x^{v-1}\beta_v) $$

如同初等因子那,我们也是分配律拆开

$$ = A [\beta_1, \beta_2, \dots, \beta_v] X - (x\beta_1 + x^2\beta_2 + \dots + x^v\beta_v) $$

在模 $d$下,把$x^v$降次,并把除了$\beta_v$ 之外的挪进前面就出现一个移位的形式

$$ \equiv (A [\beta_1, \beta_2, \dots, \beta_v] - [0, \beta_1, \dots, \beta_{v-1}]) X + (b_1x^{v-1} + \dots + b_v)\beta_v $$

$$ \equiv 0 \pmod{d(x)} $$

比较最后一个等式向量分量里 $x$ 方幂的系数,得:

$$ A [\beta_1, \beta_2, \dots, \beta_v] = [0, \beta_1, \dots, \beta_{v-1}] - [b_v\beta_v, b_{v-1}\beta_v, \dots, b_1\beta_v] $$

$$ = [\beta_1, \beta_2, \dots, \beta_v] \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ -b_v & -b_{v-1} & \dots & -b_1 \end{bmatrix}. $$

由于并非强循环子空间,还出现了一排系数,但这正是友阵(转置)的形式
也可以一项一项写出,即:

$$ \begin{cases} A\beta_v = \beta_{v-1} - b_1\beta_v \\ A\beta_{v-1} = \beta_{v-2} - b_2\beta_v \\ \dots \\ A\beta_2 = \beta_1 - b_{v-1}\beta_v \\ A\beta_1 = -b_v\beta_v \end{cases} $$


反推

$$ \beta_{v-1} = A\beta_v + b_1\beta_v = (A + b_1I)\beta_v, $$

$$ \beta_{v-2} = A\beta_{v-1} + b_2\beta_v = (A^2 + b_1A + b_2I)\beta_v, $$

$$ \dots, \dots $$

$$ \beta_1 = A\beta_2 + b_{v-1}\beta_v = (A^{v-1} + b_1A^{v-2} + \dots + b_{v-1}I)\beta_v $$

$$ A\beta_1 + b_v\beta_v = d(A)\beta_v = 0. $$

用矩阵表示,有

$$ [\beta_1 \ \beta_2 \ \cdots \ \beta_{v-1} \ \beta_v]

= [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v] \begin{bmatrix} b_{v-1} & b_{v-2} & \cdots & b_1 & 1 \ b_{v-2} & b_{v-3} & \cdots & 1 & 0 \ \vdots & \vdots & \ddots & \vdots & \vdots \ b_1 & 1 & \cdots & \vdots & 0 \ 1 & 0 & \dots & 0 & 0 \end{bmatrix}.
$$

$$ \langle \beta_1, \beta_2, \dots, \beta_v \rangle = \langle \beta_v, A\beta_v, \dots, A^{v-1}\beta_v \rangle. $$

就是说,这样一组 $\beta$ 对应了一条链。


方阵与其转置相似

利用上面的讨论,我们有

$$ A [\beta_1 \ \beta_2 \ \cdots \ \beta_v] = [\beta_1 \ \beta_2 \ \cdots \ \beta_v] \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ -b_v & -b_{v-1} & \cdots & -b_1 \end{bmatrix} $$

以及

$$ A [\beta_v \ A\beta_v \ \cdots \ A^{v-1}\beta_v] = [\beta_v \ A\beta_v \ \cdots \ A^{v-1}\beta_v] \begin{bmatrix} & & & -b_v \\ 1 & & & -b_{v-1} \\ & \ddots & & \vdots \\ & & 1 & -b_1 \end{bmatrix} $$

利用

$$ [\beta_1 \ \beta_2 \ \cdots \ \beta_{v-1} \ \beta_v]

= [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v] \begin{bmatrix} b_{v-1} & b_{v-2} & \cdots & b_1 & 1 \ b_{v-2} & b_{v-3} & \cdots & 1 & 0 \ \vdots & \vdots & \ddots & \vdots & \vdots \ b_1 & 1 & \cdots & \vdots & 0 \ 1 & 0 & \dots & 0 & 0 \end{bmatrix}
$$

$$ =[\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v]U $$

代换就得到

$$ A [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v]U = [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v]U \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ -b_v & -b_{v-1} & \cdots & -b_1 \end{bmatrix} $$

显然 $U$ 可逆,那么

$$ A [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v] = [\beta_v \ A\beta_v \ A^2\beta_v \ \cdots \ A^{v-1}\beta_v]U \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ -b_v & -b_{v-1} & \cdots & -b_1 \end{bmatrix}U^{-1} $$

那么就发现

$$ U \begin{bmatrix} 0 & 1 & & \\ & 0 & \ddots & \\ & & \ddots & 1 \\ -b_v & -b_{v-1} & \cdots & -b_1 \end{bmatrix}U^{-1}=\begin{bmatrix} & & & -b_v \\ 1 & & & -b_{v-1} \\ & \ddots & & \vdots \\ & & 1 & -b_1 \end{bmatrix} $$

其中

$$ U=\begin{bmatrix} b_{v-1} & b_{v-2} & \cdots & b_1 & 1 \\ b_{v-2} & b_{v-3} & \cdots & 1 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ b_1 & 1 & \cdots & \vdots & 0 \\ 1 & 0 & \dots & 0 & 0 \end{bmatrix} $$

实际上我们也就是做了换基。
我们仔细观察会发现,这两个 Frobenius 矩阵互为转置而相似,那么一般的方阵会和他的转置相似吗?

如果可以这样分解一个方阵,那只要挨个套上面的结论就好了:

$$ Q^{-1} A Q = F = \begin{pmatrix} C_{d_1} & & \\ & \ddots & \\ & & C_{d_k} \end{pmatrix} $$

其中,每个对角块 $C_{d_i}$ 是首一多项式(Monic polynomial)$d_i(x)$ 的友阵(Companion Matrix)。

对于每一个友阵块 $C_{d_i}$,已知存在对称可逆矩阵 $U_i$使得$U_i C_{d_i} U_i^{-1} = C_{d_i}^T$。我们可以构造一个分块对角矩阵 $P$:

$$ P = \begin{pmatrix} U_1 & & \\ & \ddots & \\ & & U_k \end{pmatrix} $$

由于每个 $U_i$均可逆,则$P$ 显然可逆。对其进行相似变换:

$$ \begin{aligned} P F P^{-1} &= \begin{pmatrix} U_1 C_{d_1} U_1^{-1} & & \\ & \ddots & \\ & & U_k C_{d_k} U_k^{-1} \end{pmatrix} \\ &= \begin{pmatrix} C_{d_1}^T & & \\ & \ddots & \\ & & C_{d_k}^T \end{pmatrix} \\ &= F^T \end{aligned} $$

由此证明了标准型 $F$与其转置$F^T$ 相似。

利用 $A = Q F Q^{-1}$,对两端取转置可得:

$$ A^T = (Q^{-1})^T F^T Q^T $$

将 $F^T = P F P^{-1}$以及$F = Q^{-1} A Q$ 代入上式进行展开:

$$ \begin{aligned} A^T &= (Q^{-1})^T (P F P^{-1}) Q^T \\ &= (Q^{-1})^T P (Q^{-1} A Q) P^{-1} Q^T \\ &= \left( (Q^{-1})^T P Q^{-1} \right) A \left( Q P^{-1} Q^T \right) \end{aligned} $$

令 $R = (Q^{-1})^T P Q^{-1}$,易证其逆矩阵为 $R^{-1} = Q P^{-1} Q^T$。

上述等式可简写为:

$$ A^T = R A R^{-1} $$

这说明 $A$相似于$A^T$。该结论在复数域或任何代数封闭域上均成立。
那接下来的问题是,能不能那么分解一个方阵,实际上,这样的分解被称为有理标准型,也确实可以这么干。

有理标准型

若对角分块矩阵 $B = \begin{bmatrix} B_1 & & \ & \ddots & \ & & B_s \end{bmatrix}$的对角块$B_i$ $(1 \le i \le s)$都是某些首一多项式$d_i(x)$的友阵,且这些多项式满足$d_1(x) \mid d_2(x) \mid \cdots \mid d_s(x)$,则称上述矩阵 $B$ 为有理标准形矩阵

定理:

每个矩阵都相似于唯一的一个有理标准形矩阵

不变因子

这时我们需要溯源到最开始提到的 x-矩阵的初等变换,如果我们严格按照步骤(4*),就会得到所谓Smith 标准型。

若 $A \in M_n(K)$,则存在可逆的 $x$-矩阵 $P(x), Q(x)$,使得

$$ P(x)(xI - A)Q(x) = \text{Smith 标准型} = \begin{bmatrix} 1 & & & & \\ & \ddots & & & \\ & & d_1(x) & & \\ & & & \ddots & \\ & & & & d_s(x) \end{bmatrix} $$

这里 $d_i(x)$是次数$\ge 1$ 的首一多项式,满足

$$ d_1(x) \mid d_2(x) \mid \cdots \mid d_s(x) . $$

我们称 $d_1(x), \cdots, d_s(x)$为$A$ 的不变因子(组)

初等因子与不变因子

同时,也注意到,初等因子可以重复。

将 $A$的不变因子$d_1(x), \cdots, d_s(x)$在$\mathbb{C}$上因式分解中出现的一次因式的方幂一个一个写下来(相同的需重复记录),就得到$A$ 的全部初等因子。

反之,将 $A$的属于同一特征值的初等因子都写在同一行上,每一行上的初等因子按升幂排列,并按尾项上下对齐(不足的可用$1$补上),再将同一列上的初等因子上下相乘,就变回$A$的不变因子组$d_1(x), \cdots, d_s(x)$。

不变因子不随扩域改变

矩阵 $A \in M_n(K)$ 的不变因子组

$$ d_1(x), \cdots, d_s(x) \in K[x] $$

由 $A$(的相似等价类)唯一确定,且不依赖于 $K$ 的扩张。

证: 假设 $A$还有另一组不变因子$c_1(x), \cdots, c_t(x)$。由以上不变因子组与 $\mathbb{C}$ 上初等因子组的一一对应关系,$A$在$\mathbb{C}$ 上将有两组不同的初等因子。但是根据之前所述,$A$的初等因子组(因与$A$的若当块绑定)被$A$ 的相似类唯一确定,由此导出矛盾!

不变因子给出空间分解

设 $d_1(x), \cdots, d_s(x)$是$A \in M_n(K)$的不变因子,则存在$\gamma_1, \cdots, \gamma_s \in K^n$,使得

$$ Z(\gamma_1, A) \oplus \cdots \oplus Z(\gamma_s, A) = K^n, $$

且 $A$在$\gamma_i$处的最小多项式为$d_i(x), \forall 1 \le i \le s$。

这里 $Z(\gamma_i, A)$是由$\gamma_i$ 生成的 $A$-循环子空间

阅读全文

Free Will as the Transcendence of Calculation

As the thinking is what matters, I reserve the original raw thinking after the formal essay.


Trimmed Version

Before delving into the materials we learnt this term, freedom seemed a transparent concept: the simple ability to choose what one desires. Yet, a shadow of doubt inevitably emerges: Is what we “want” truly our own, or is it merely a precarious balance between inner cravings and outer forces? When we talk about free will, what we are actually discussing?

History and myth offer a gallery of forces that shape human choice—oracles, fate, political power, and biological instinct. On the surface, every choice Oedipus made seemed to spring from his own volition. No one forced him to flee Corinth; no one commanded him to strike the stranger on the road. Yet, from a higher perspective, his every step was shadowed by the oracle. His “free” decision to leave his home was, paradoxically, the very mechanism that delivered him to his tragic fate. Here, freedom appears as an illusion: a man walking a path he believes he is paving, only to find the stones were laid long before his birth. We find this unsettling. We feel the suffocating power of fate. Was Oedipus a free man, or was even his very temperament—his “hot temper” and “wisdom”—merely a set of pre-installed parameters leading to a predetermined end?

To escape this deterministic trap, we might look to Socrates. Facing the Athenian court, he was presented with a clear calculation: to persuade the citizens and live, or to deliver his Apology, refuse escape, and accept the hemlock. He chose the latter. Here, we find a different flavor of choice. In the tiger’s world, a hungry predator might forgo a hunt to avoid injury—we classify this not as free will, but as survival instinct. It is a calculation of risks. But Socrates’ choice was incommensurable with such biological or social logic. He weighed his life against his pursuit of truth and found the latter heavier. This choice feels “free” precisely because it breaks the standard mold of self-preservation.

From these examples, we may derive a clearer, albeit indirect, description: Free will is the choice made beyond calculation. “Calculation” here refers to objective reasoning—the machine-like processing of variables to find the “optimal” path. If you are told it will rain, you bring an umbrella; if a tiger is too dangerous, you retreat. These are predictable, almost algorithmic responses. If every person under the same conditions would act identically, can we truly say they are acting freely? Or are they simply executing a program?

I am inclined to view free will through the lens of probability. Let $P_i$represent the likelihood of a certain action being taken by an individual within a population. The more “calculable” an action is—the more it aligns with standard survival, social norms, or logical optimization—the higher its$P_i$ becomes. In this light, free will shines most brightly in the “statistical outlier.” It is not that free will is merely “acting differently” for the sake of it, but rather that it manifests when an individual transcends the “standard way” of thinking.

Oedipus’s flight from Corinth was a calculated escape from a curse—a high-probability reaction to fear. But the moment Oedipus blinded himself, he stepped out of the oracle’s shadow and into the light of his own agency. There was no “reason” for such agony, no calculation that would recommend self-mutilation. It was a leap. Similarly, Socrates’ acceptance of death was a rejection of the “optimal” biological program. These great, “weird” moments in history are what we instinctively recognize as the peak of human freedom.

Thus, we arrive at a conclusion that bridges the ancient and the modern:

Free will is the moment when a person refuses to become a machine that merely executes a program. It is a leap toward a purpose higher than one’s own calculations—even if that leap brings worldly harm. In that moment of illogical, uncalculable sacrifice, the soul renders itself no longer predictable or exhaustible by any probabilistic model. It is the glorious anomaly that proves we are more than the sum of our inputs


The row thinking (my CoT)

Before reading relevant materials, freedom seemed easy to understand, meaning one may choose what he wants to do. But is what we ‘want’ really the very thing we want? Or is it just a balance between our actual desire and outer forces? When we talk about free will, what we are actually discussing?

There are tons of matters that might influence one’s choice–oracles, fate, prophecy, political powers, to name a few. When we make decision, those factors will inevitably contribute to it. Every choice Oedipus made seemed totally out of his own free will, but it was obvious that the oracle could be the decisive factor for him to leave the place he grew up. After that, his characteristics naturally rendered him the final tragic ending. No one told him that he should leave, or he should kill the people he meet on the road. From this perspective, every choice was made by himself. But we notice that, oracle made him leave, and his hot temper killed his father. Then his wisdom helped him become the king, marrying his mother. Except the first step, everything seemed natural. But from a higher perspective, everything seemed had already been settled down by fate. It felt unsettling; we sensed the overwhelming power of fate. Did Oedipus really have his own free will? Or even what he shall think had already been settled by fate?

This way, we fell into something that could not discussed at all. We could say everything was settled down, but we could not know it before it has happend. We could say every thought that emerges in our minds was set by a mysterious force. However, these could not be verified, so it has no room for discussion. Then how do we think over free will? What is free will? A hungry tiger chooses not to hunt a bison because it may get hurt. Is this choice out of free will? An inner voice tells me not. I tend to classfiy it as out of survival intuition. Then what is free will? We may recall Socrates. Among those ancient figures, the way Socrates acted might suit ‘free will’ the best in my mind. Then we could delve into it to see why. He was faced with two choices: to persuade the citizens and be freed, or to deliver the Apology, to refuse his students’ help and accepting his death. He chose the latter. Is there anything that will contribute to the former or latter? Of course. His life and his pursuit stood for the former and the latter respectively. Between them, Socrates chose one. And I find this suits ‘free will’. Then why Oedipus seemed not so ‘free’? If there was not such a oracle, maybe he would not leave Corinth. And leaving Corinth caused the following bad outcomes. But in the end, Oedipus blinded himself. This action seemed out of free will. So, from these examples, we may find a clearer meaning for free will.

Free will is the choice one makes beyond calculation and outer factors, the choice made out of ‘no reasons’. Here, reasons are not including inner factors like faith, characteristics, otherwise there is no free will at all. Calculation means objective reasoning, like if you fight with a tiger, you are more likely to be killed. For Socrates, his pursuits weighed heavier than his life. Under such situation, different people could have different answers, and none of answers could be judged ‘wrong’, so it is beyond calculation. For Oedipus, his leaving was out of the oracle, while he blinded himself out of his own choice. This seemed fit pretty well. Then how about Aeneas? Aeneas was described faithful. Though Mercuid sent Jupiter’s messenges to him, he thought of his son, thought of his kingdom. So actually I tend to say that he made this choice out of free will. Love for Dido and mission he carried, he chose the latter. But this could be more complicated, as gods’ attitude weighed a lot for that period of time. From another perspective, however, we may find that, if he chose to live with Dido, would Jupiter allow all these to happen? So this way, Aeneas seemed not that free. And we shall see that, for most circumstances, there is not pure free will. In situations like what Aeneas or Socrates faced, free will could also be like a certain distribution of weigh for several factors. For Socrates, pursuits weighed more than life. For Aeneas, his faith weighed more than his love. But we could see that such free will is different from the way Oedipus blinded himself. This difference should be natural. We are not always choose one from A and B. We might suddenly want to run for a while or jump in the muddy puddles. In different situations, free will has different forms. This sounds natural. But also naturally, we want a final answer that might describe free will in a sentence instead of discussing it in different situations.

It could be hard to give the very sentence. But from above, we may give a indirect description. If someone acts out of free will, different person might act differently under the same conditions. In other words, free will links to specific individual. This aligned with my intuition. However, in this way, every action we mentioned above becomes out of free will. But as I have mentioned, by intuition, Oedipus left Corinth was not out of free will, while the description I just gave seemed quite reasonable. Luckily, this is just a logical problem. If someone acts out of free will, then… So this is not a sufficient condition but a necessary condition. If different person might act differently under the same conditions, we could not say firmly that this action is out of free will. But why not? It’s true that someone might stay in Corinth, ignoring the oracle. This way it seems free. So the intuition actually built on the ground that the oracle meant a lot for people then. In this way, running away from his father and mother could be easily calculated. Or we could take it in another perspective. We could almost every action partly out of free will, also its opposite. So we assign our attention on the ratio of free will. If weather prediciton goes that it will rain tomorrow, you then cancel your trip to climb a mountain, of course you may go ahead with an umbrella, but most people might choose to cancel. The same as why we might focus more on the ratio of free will. Under every situations, every choice could be possible. So we could say every action is free, but this is useless. The only way to get something is to focus on the partition. Idealy, we might assume every action has a posibility to be made among all people. We call it $P_i$, namely the posibility i happens. Then we want to know how free an action is. The less$P_i$ is, the more likely you made this decision out of free will. I am not saying that free will means acting differently. It is hard to judge whether something could be ‘calculated’ and act following a standard way without thinking, just like a machine. And the likelihood people will do might reveal whether it could be ‘calculated’ to some extent as we are all human, we have similar features. I have to say that this relation could be false, as it was created by a sudden whim. What I really want to show is free will shines as it goes beyond a standard but machine-like way.

The moment Oedipus blinded himself, or the moment Socrates embraced his death… these profound moments feel almost unbelievable, and we intuitively recognize them as acts of free will. They could have chosen comfort; they could have chosen to live. Yet, they pursued something higher, taking a ‘weird’ or illogical step that led to personal disaster but resulted in a pure, shining soul.

Thus, we could give a conclusion:

Free will is the moment when a person refuses to become a machine that merely executes a program, and instead takes a leap toward a purpose higher than his own calculations — even if that leap brings him harm in the world, it renders his soul no longer predictable or exhaustible by any probabilistic model.

阅读全文

10.级数 I —— 定义与正项级数

2026/5/6

定义

我们熟悉的

$$ \sum_{k=0}^\infty q^k=\frac{1}{1-q},|q|<1 $$

有一个名字叫做所谓几何级数。级数是什么呢,实际上就是无穷多个数的求和。那么这样的求和是不是有限的值呢?自然就会想到收敛这个概念。我们定义

$$ S_n=\sum_{k=1}^na_k $$

为部分和,即截取前 $n$项的和。那么$S_n$ 是否收敛也即级数是否收敛。

对于和的极限,我们想到柯西收敛定理,那么级数收敛的充要条件也就是:

$$ \forall \epsilon>0,\exists N,x>N时,\forall p,|\sum_{k=x}^{x+p}a_k|<\epsilon $$

换句话说,也就是较大下标的部分和之差是否收敛。极端一点,考虑两个相邻的部分和的差,也就是通项,那么就得到通项要趋于 $0$ 级数才可能收敛。

判断收敛实际上回到了放缩,阶估算那些东西。

例如,我们考虑 $1/n^2$的求和,利用裂项就得到,从$n$开始的一个求和小于$\frac{1}{n}$ ,收敛,从而级数收敛。

相应的,对于 $1/n$,我们可以往小了放,放到$p$个$\frac{1}{n+p}$,那么选取$p>n$就得到部分和$>\frac{1}{2}$ ,从而级数不收敛。

性质

收敛级数的线性组合也收敛

利用柯西收敛定理以及极限的线性性质可知,且线性组合的极限也就是对应的极限的线性组合。

改变有限项不影响收敛

收敛的级数改变有限项仍然收敛,但是和会改变。

和显然会改变,利用柯西收敛定理,我们跳过有限项的最后一项也就能找到 $N$ 。

收敛级数任意加括号形成的级数也收敛

设级数 $\sum_{n=1}^{\infty} u_n$收敛于和$S$,其部分和序列为 ${S_n}$。将其项任意加括号后所成的级数为:

$$ (u_1 + \cdots + u_{i_1}) + (u_{i_1+1} + \cdots + u_{i_2}) + \cdots + (u_{i_{n-1}+1} + \cdots + u_{i_n}) + \cdots = \sum_{k=1}^{\infty} v_k \quad (10.1) $$

其中 $v_k = u_{i_{k-1}+1} + \cdots + u_{i_k}$,并规定 $i_0 = 0$。设级数 (10.1) 的部分和序列为 ${\sigma_n}$。不难看出有关系式:

$$ \sigma_n = S_{i_n} $$

即 ${\sigma_n}$是${S_n}$的一个子序列。因而若原级数收敛于$S$时,也即$S_n \to S (n \to \infty)$,就有 $\sigma_n \to S (n \to \infty)$。证毕。

但要注意反向并不成立:若对一个级数中的项添加括号后收敛,该级数本身未必收敛。一个最明显的例子是 $\sum_{n=0}^{\infty} (-1)^n$。它是发散的,但适当添加括号后可以变成收敛的。

这看起来像废话,有什么用呢?实际上它在反证法中是有一定作用的。

例如

证明:调和级数 $\sum_{n=1}^{\infty} \frac{1}{n}$ 发散

例: 考察级数 $\sum_{n=1}^{\infty} \frac{1}{n}$,其中通项 $a_n = \frac{1}{n}$。

证: (反证法)

假设该级数收敛,并设其和为 $S$。

  1. 构造新级数 $b_n$:

    我们将原级数的项每两项两项结合,令:

$$ b_n = a_{2n-1} + a_{2n} = \frac{1}{2n-1} + \frac{1}{2n} $$

由于 $\frac{1}{2n-1} > \frac{1}{2n}$,显然有:

$$ b_n = \frac{1}{2n-1} + \frac{1}{2n} > \frac{1}{2n} + \frac{1}{2n} = \frac{1}{n} = a_n $$

即 $b_n > a_n$。

  1. 定义部分和:

    • 记级数 $\sum b_k$的部分和为$B_n = \sum_{k=1}^{n} b_k$。

    • 记级数 $\sum a_k$的部分和为$A_n = \sum_{k=1}^{n} a_k$。

  2. 推导矛盾:

    根据级数的结合律,如果 $\sum a_n$收敛于$S$,那么对其任意加括号后的级数 $\sum b_n$也必然收敛于同一个和$S$。这意味着:

    当 $n \to \infty$ 时,$B_n \to S$且$A_n \to S$。

    然而,考察两者的差值:

$$ B_n - A_n = \sum_{k=1}^{n} (b_k - a_k) $$

由于每一个 $b_k - a_k > 0$,该差值序列是单调递增的,因此:

$$ B_n - A_n \geq B_1 - A_1 = b_1 - a_1 = \left(\frac{1}{1} + \frac{1}{2}\right) - 1 = \frac{1}{2} $$

如果令 $n \to \infty$,左边将趋于 $S - S = 0$,由此得到:

$$ 0 \geq \frac{1}{2} $$

这显然是一个矛盾

结论: 原假设不成立,调和级数 $\sum_{n=1}^{\infty} \frac{1}{n}$ 发散。

正项级数的收敛判别法

如果级数通项都是正的,那么利用单调有界定理,我们只需要说明 $S_n$ 有一致上界就知道级数收敛。

此外,有个自然的想法,如果通项每一项都大,那求和自然应该大。

比较判别法

设两个正项级数 $\sum_{n=1}^{\infty} u_n$与$\sum_{n=1}^{\infty} v_n$的一般项满足$u_n \leqslant v_n \quad (n=1, 2, \cdots)$,则:

  1. 若级数 $\sum_{n=1}^{\infty} v_n$收敛,则级数$\sum_{n=1}^{\infty} u_n$ 也收敛;

  2. 若级数 $\sum_{n=1}^{\infty} u_n$发散,则级数$\sum_{n=1}^{\infty} v_n$ 也发散。


证明

对于结论 (1):

  • 设 $\sum_{n=1}^{\infty} u_n$与$\sum_{n=1}^{\infty} v_n$的部分和序列分别为${S_n}$与${T_n}$。

  • 由假设条件 $u_n \leqslant v_n$ 可得:$0 \leqslant S_n \leqslant T_n \quad (n=1, 2, \cdots)$。

  • 设 $\sum_{n=1}^{\infty} v_n$收敛,根据单调有界原理(命题 1),其部分和序列${T_n}$ 必有上界。

  • 即存在常数 $M$,使得 $T_n \leqslant M \quad (n=1, 2, \cdots)$。

  • 由不等式传递性得 $S_n \leqslant M \quad (n=1, 2, \cdots)$,说明 ${S_n}$ 也有上界。

  • 再次引用单调有界原理,得知级数 $\sum_{n=1}^{\infty} u_n$ 收敛。

对于结论 (2):

  • 采用反证法

  • 假设 $\sum_{n=1}^{\infty} v_n$收敛,则由结论 (1) 推得$\sum_{n=1}^{\infty} u_n$ 也收敛。

  • 这与已知条件“$\sum_{n=1}^{\infty} u_n$ 发散”相矛盾。

  • 因此,$\sum_{n=1}^{\infty} v_n$ 必发散。证毕。


推论(更一般的形式)

注意到删去级数开头的有限项不影响级数的收敛性,可得如下推论:

若存在常数 $N(\geqslant 1)$及$c(>0)$,使得当 $n \geqslant N$ 时,有:

$$ 0 \leqslant u_n \leqslant c v_n $$

则:

  • 当 $\sum_{n=1}^{\infty} v_n$ 收敛时,$\sum_{n=1}^{\infty} u_n$ 也收敛;

  • 当 $\sum_{n=1}^{\infty} u_n$ 发散时,$\sum_{n=1}^{\infty} v_n$ 也发散。

这有点像夹逼定理。

p-级数的敛散性

例如我们知道调和级数 $a_n=1/n$发散,就可以考虑所谓 p-级数$1/n^p$的求和。那么$0<p<1$ 时,就知道也发散。

设 $p > 1$。下面给出一个不用积分判别的,非常神秘的做法。用积分判别十分显然,就不说了。积分判别将在后面提到。

1. 利用微分中值定理建立不等式

考虑函数 $f(x) = \frac{1}{x^{p-1}}$在区间$[n-1, n]$ 上的增量。根据拉格朗日中值定理

$$ \frac{1}{(n-1)^{p-1}} - \frac{1}{n^{p-1}} = (p-1) \frac{1}{(n-\eta)^p}, \quad \eta \in (0, 1) $$

由于 $n-\eta < n$,则 $\frac{1}{(n-\eta)^p} > \frac{1}{n^p}$。

由此得到关键不等式:

$$ \frac{1}{(n-1)^{p-1}} - \frac{1}{n^{p-1}} \geq (p-1) \frac{1}{n^p} $$

整理得:

$$ \frac{1}{n^p} \leq \frac{1}{p-1} \left( \frac{1}{(n-1)^{p-1}} - \frac{1}{n^{p-1}} \right) $$


2. 估计部分和 $S_N$设级数的部分和为$S_N = \sum_{n=1}^{N} \frac{1}{n^p}$。我们将第一项($n=1$)单独提出,对剩余项使用上述不等式:

$$ \begin{aligned} S_N &= 1 + \sum_{n=2}^{N} \frac{1}{n^p} \\ &\leq 1 + \frac{1}{p-1} \sum_{n=2}^{N} \left( \frac{1}{(n-1)^{p-1}} - \frac{1}{n^{p-1}} \right) \end{aligned} $$

这是一个裂项相消级数,求和后中间项全部消去:

$$ \begin{aligned} S_N &\leq 1 + \frac{1}{p-1} \left( 1 - \frac{1}{N^{p-1}} \right) \\ &< 1 + \frac{1}{p-1} \quad (\text{因为 } \frac{1}{N^{p-1}} > 0) \\ &= \frac{p-1+1}{p-1} = \frac{p}{p-1} \end{aligned} $$


3. 结论

由上述推导可知,部分和序列 ${S_N}$是单调递增上有界的(上界为$\frac{p}{p-1}$)。

根据单调有界原理

$$ \Rightarrow \sum_{n=1}^{\infty} \frac{1}{n^p} \text{ 收敛} $$

技巧性就比较强。

比较判别法的极限形式

设有三个正项级数 $\sum_{n=1}^{\infty} u_n$与$\sum_{n=1}^{\infty} v_n$,且有:

$$ \lim_{n \to \infty} \frac{u_n}{v_n} = h $$

其中 $h$为有限数或$+\infty$。则有下述结论:

  1. 当 $0 \leqslant h < +\infty$时:若级数$\sum_{n=1}^{\infty} v_n$收敛,则级数$\sum_{n=1}^{\infty} u_n$ 也收敛;

  2. 当 $0 < h \leqslant +\infty$时:若级数$\sum_{n=1}^{\infty} v_n$发散,则级数$\sum_{n=1}^{\infty} u_n$ 也发散。

特别地:当 $0 < h < +\infty$ 时,两个无穷级数同时收敛或同时发散
这实际上就是在做阶估算。同阶同敛散。


证明

结论 (1) 的证明:

  • 当 $0 \leqslant h < +\infty$时,根据极限的定义,存在一个自然数$N$,使得当 $n > N$ 时:

$$ \frac{u_n}{v_n} < h + 1 $$

  • 也即 $u_n < (h + 1)v_n$。

  • 由比较判别法(基本形式)可知,从 $\sum_{n=1}^{\infty} v_n$的收敛性可推出$\sum_{n=1}^{\infty} u_n$ 的收敛性。

结论 (2) 的证明:

  • 当 $0 < h \leqslant +\infty$ 时,我们考虑比值的倒数:

$$ \lim_{n \to \infty} \frac{v_n}{u_n} = \frac{1}{h} $$

  • 约定当 $h = +\infty$ 时,$\frac{1}{h} = 0$。

  • 同理,对于充分大的 $n$,$v_n < \left(\frac{1}{h} + 1\right)u_n$。

  • 这证明了结论 (2)。证毕。

达朗贝尔判别法 (Ratio Test)

一般地,我们如何运用等比级数去判断一个级数的敛散性呢,就用到所谓达朗贝尔判别法。

已知条件:

给定正项级数 $\sum u_n$,其中 $u_n > 0$。

设相邻两项比值的极限为:

$$ \lim_{n \to +\infty} \frac{u_{n+1}}{u_n} = l $$

判定结论:

  1. 若 $l < 1$,级数收敛

  2. 若 $l > 1$(或 $l = +\infty$),级数发散

  3. 若 $l = 1$,判别法失效,级数可能收敛也可能发散,需另行判定。


证明逻辑:为什么 $l < 1$ 时级数收敛

证明思路: 利用比较判别法,将原级数与收敛的几何级数(等比级数)进行比较。

  1. 寻找公比 $q$:

    由于 $\lim_{n \to +\infty} \frac{u_{n+1}}{u_n} = l < 1$,根据极限的性质,一定存在一个常数 $q$,使得 $l < q < 1$。

  2. 确定范围:

    存在充分大的正整数 $N$,使得当 $n \geq N$时,恒有$\frac{u_{n+1}}{u_n} < q$。

  3. 逐项放大:

    • $u_{N+1} < q u_N$-$u_{N+2} < q u_{N+1} < q^2 u_N$

    • 推广得:$u_n < q^{n-N} u_N = q^n \cdot \frac{u_N}{q^N}$

  4. 得出结论:

    记常数 $C_N = \frac{u_N}{q^N}$,则对于所有 $n \geq N$,有 $u_n < C_N q^n$。

    因为 $0 < q < 1$,几何级数 $\sum q^n$是收敛的。由比较判别法可知,级数$\sum u_n$ 必定收敛。

对于另一侧,改个符号即可同理推出。


案例:为什么 $l = 1$ 时判定失效?

给出两个 $l=1$ 但敛散性截然不同的例子:

  • 例子 1(发散): 调和级数 $\sum \frac{1}{n}$ $\frac{u_{n+1}}{u_n} = \frac{n}{n+1} \to 1$,但该级数发散

  • 例子 2(收敛): $p=2$的$p$-级数 $\sum \frac{1}{n^2}$ $\frac{u_{n+1}}{u_n} = \left(\frac{n}{n+1}\right)^2 \to 1$,但该级数收敛

柯西判别法

观察上面,我们发现我们实际上通过做比值,然后通过比值的极限去构造了等比数列。那实际上我们也可以一步到位,直接考虑 $u^{\frac{1}{n}}$的极限$l$ 。然后完全类似地得到和达朗贝尔判别一样的结果。

判定结论:

  1. 若 $l < 1$,级数收敛

  2. 若 $l > 1$(或 $l = +\infty$),级数发散

  3. 若 $l = 1$,判别法失效,级数可能收敛也可能发散,需另行判定。


拉阿伯判别法 (Raabe’s Test)

前面我们是利用等比级数做一个判定,但是等比级数并不那么强大,我们先前谈论的 $p$-级数是否也能拿来判断敛散性呢?答案是肯定的。

已知条件: 给定正项级数 $\sum u_n$,其中 $u_n > 0$。 设其相邻项比值的变形极限为:

$$ \lim_{n \to \infty} n \left( \frac{u_n}{u_{n+1}} - 1 \right) = R $$

判定结论:

  1. 若 $R > 1$:级数收敛

  2. 若 $R < 1$:级数发散

  3. 若 $R = 1$:判别法失效,需采用更精细的判别法(如 Gauss 判别法)。


证明要点与逻辑推导

核心思想是将其与已知的 p-级数 进行比较。

1. 辅助级数的性质

选取 $p$-级数 $v_n = \frac{1}{n^p}$。对其进行同样的极限运算:

$$ n \left( \frac{v_n}{v_{n+1}} - 1 \right) = n \left( \frac{(n+1)^p}{n^p} - 1 \right) = n \left( (1 + \frac{1}{n})^p - 1 \right) $$

利用二项式展开或泰勒展开 $(1+x)^p = 1 + px + O(x^2)$:

$$ \approx n \left( 1 + \frac{p}{n} + O(\frac{1}{n^2}) - 1 \right) \to p $$

这说明对于 $p$-级数,该极限值正好等于其幂次 $p$。

2. 利用比较判别法证明 $R > 1$ 的收敛性

  • 寻找中介值:若 $R > 1$,则一定存在一个数 $p$,使得 $R > p > 1$。

  • 建立不等式:由于 $\lim_{n \to \infty} n \left( \frac{u_n}{u_{n+1}} - 1 \right) = R > p$,则存在充分大的 $N$,使得当 $n \geq N$ 时:

$$ n \left( \frac{u_n}{u_{n+1}} - 1 \right) > n \left( \frac{(n+1)^p}{n^p} - 1 \right) $$

  • 化简不等式

$$ \frac{u_n}{u_{n+1}} > \frac{(n+1)^p}{n^p} \Rightarrow (n+1)^p u_{n+1} < n^p u_n $$

  • 递推放大: 这说明序列 ${n^p u_n}$在$n \geq N$ 后是单调递减的。因此:

$$ (n+1)^p u_{n+1} < n^p u_n < \dots < N^p u_N = C_N $$

从而得出 $u_{n+1} < \frac{C_N}{(n+1)^p}$。

  • 结论:由于 $p > 1$,由 p-级数收敛判定比较判别法 可知,级数 $\sum u_n$ 收敛

积分判别法

在[[7.求和#积分估计]]中我们实际上讨论过积分估计求和。

定理

1. 定理

设 $\sum_{n=1}^{\infty} u_n$ 为正项级数($u_n \geq 0$)。若存在单调不增的非负函数 $f(x)$使得$f(n) = u_n$,则:

$$ \sum_{n=1}^{\infty} u_n \text{ 收敛} \iff \int_{1}^{+\infty} f(x) dx \text{ 收敛} $$

**2. 核心等价关系

通过有界性原理(正项级数/非负函数增加的特性)不难得到如下链条:

  • 级数收敛 $\iff$部分和序列${S_n}$ 有上界

  • 积分存在 $\iff$变上限积分$\int_{1}^{A} f(x) dx$ 有上界


证明思路

通过比较单位区间上的矩形面积与曲线下积分面积,可以得出以下两个关键不等式:

A. 证明“级数收敛 $\Rightarrow$ 积分收敛”

利用左矩形法(或右移比较):

$$ \int_{1}^{n} f(x) dx \leq \sum_{k=1}^{n-1} u_k = S_{n-1} $$

  • 逻辑推演:若级数收敛,则 ${S_{n-1}}$有上界,从而导致$\int_{1}^{n} f(x) dx$也有上界。根据单调有界原理,当$n \to \infty$时,积分$\int_{1}^{+\infty} f(x) dx$ 必定存在。

B. 证明“积分收敛 $\Rightarrow$ 级数收敛”

利用右矩形法:

$$ S_n = \sum_{k=1}^{n} u_k = u_1 + \sum_{k=2}^{n} u_k \leq u_1 + \int_{1}^{n} f(x) dx $$

  • 逻辑推演:若反常积分收敛,则其变上限积分 $\int_{1}^{n} f(x) dx$有上界,从而推导出${S_n}$也有上界。因此,正项级数$\sum u_n$ 必定收敛。

综合两方面就得到原命题成立。

应用

积分判别法可以处理前述判别法得到极限为 $1$ 而无法处理的情形,例如

$$ \sum \frac{1}{nlnn} $$

这应用 Raabe’s test 或者 Cauchy’s test 都行不通,但是一积分得到原函数 $lnlnn$就知道发散,相应地如果改成$\frac{1}{n(lnn)^2}$ 就知道收敛。

尽管威力强大,但是需要能积出来,就对形式有一定要求,并不能一招吃遍。

阅读全文

11.级数 II —— 任意项级数

2026/5/6

任意项级数

下面讨论有正有负的级数,例如曾讨论过的 $(-1)^n$和$(-1)^n \cdot \frac{1}{n}$ ,我们首先研究这样交错的级数。

交错级数的收敛之莱布尼茨判别法 (Leibniz’s Test)

1. 定理内容 (Theorem)

若级数 $\sum_{n=1}^{\infty} (-1)^{n-1} u_n$ 满足以下三个条件:

  1. 正项性:$u_n \geq 0$

  2. 单调性:${u_n}$单调递减,即$u_{n+1} \leq u_n$

  3. 趋于零:$\lim_{n \to \infty} u_n = 0$

则该交错级数 收敛


证明逻辑拆解 (Proof Sketch)

由于负一次方的周期性,自然想到通过分析奇数项部分和偶数项部分和的单调性与有界性,那么就可以利用单调有界原理完成证明。

A. 部分和的单调性分析

  • 奇数项部分和 ${S_{2k+1}}$

$$ S_{2k+1} - S_{2k-1} = -u_{2k} + u_{2k+1} \leq 0 $$

由此可知,奇数项部分和序列是单调递减的。

  • 偶数项部分和 ${S_{2k}}$

$$ S_{2k} - S_{2k-2} = u_{2k-1} - u_{2k} \geq 0 $$

由此可知,偶数项部分和序列是单调递增的。

B. 序列的有界性与极限存在性

通过观察可知:$S_2 \leq S_{2k} < S_{2k+1} \leq S_1$。

  • 偶数项序列 ${S_{2k}}$:单调递增且有上界(如 $S_1$),根据单调有界原理,极限存在,记为 $S_{even}$。

  • 奇数项序列 ${S_{2k+1}}$:单调递减且有下界(如 $S_2$),极限存在,记为 $S_{odd}$。

C. 夹逼与统一极限

利用条件 $\lim_{n \to \infty} u_n = 0$:

$$ S_{2k+1} - S_{2k} = u_{2k+1} $$

取极限得:

$$ S_{odd} - S_{even} = \lim_{k \to \infty} u_{2k+1} = 0 $$

即 $S_{odd} = S_{even}$。奇偶子序列极限相等,说明原级数的部分和序列 ${S_n}$ 收敛。

应用示例

那么,$(-1)^n\cdot \frac{1}{n}$ 的收敛就显然了。我们考虑一个变种:

$$ 1+\frac{1}{2}+\frac{1}{3}-\frac{1}{4}-\frac{1}{5}-\frac{1}{6}+... $$

那么每三项的和看做一个新通项,不难验证新级数收敛,那么 $S_{3n}$收敛,不难验证剩下两个剩余类与$S_{3n}$极限相同,因为差是形如$\frac{1}{n}$ 的一项。

绝对收敛与条件收敛 (Absolute and Conditional Convergence)

对于任意项级数 $\sum_{n=1}^{\infty} a_n$:

定义 (Definitions)

  • 绝对收敛 (Absolute Convergence):若取绝对值后的正项级数 $\sum_{n=1}^{\infty} |a_n|$收敛,则称原级数$\sum_{n=1}^{\infty} a_n$ 为绝对收敛。

  • 条件收敛 (Conditional Convergence):若 $\sum_{n=1}^{\infty} |a_n|$发散,但原级数$\sum_{n=1}^{\infty} a_n$ 本身收敛,则称原级数为条件收敛。


相关定理

定理: 若级数 $\sum a_n$ 绝对收敛,则该级数一定收敛。

证明思路 (使用柯西收敛准则):

根据级数收敛的柯西准则 (Cauchy Criterion),级数收敛当且仅当对于任意 $\varepsilon > 0$,存在 $N_\varepsilon$,使得当 $n > N_\varepsilon$时,对于任意正整数$p$,都有:

$$ |\sum_{k=n+1}^{n+p} a_k| < \varepsilon $$

推导过程:

  1. 由于级数绝对收敛,即 $\sum |a_n|$ 收敛,由柯西准则可知:

$$ \sum_{k=n+1}^{n+p} |a_k| < \varepsilon, \quad \forall n > N_\varepsilon, p \in \mathbb{Z}^+ $$

  1. 利用三角不等式 (Triangle Inequality)

$$ |\sum_{k=n+1}^{n+p} a_k| \leq \sum_{k=n+1}^{n+p} |a_k| $$

  1. 结合以上两点:

    因为右边 $\sum |a_k| < \varepsilon$,所以左边 $|\sum a_k| < \varepsilon$ 必然成立。

由此证明了原级数 $\sum a_n$ 也满足柯西准则,故其必定收敛。

一、 级数项的正部与负部拆分

为了研究任意项级数 $\sum a_n$,我们将其每一项拆分为两个非负部分:

  • 定义 (Definitions)

    • $b_n = \frac{1}{2}(|a_n| + a_n)$:这是$a_n$的正部。若$a_n > 0$,则 $b_n = a_n$;若 $a_n \leq 0$,则 $b_n = 0$。

    • $c_n = \frac{1}{2}(|a_n| - a_n)$:这是$a_n$的负部。若$a_n < 0$,则 $c_n = |a_n|$;若 $a_n \geq 0$,则 $c_n = 0$。

  • 性质

    • $b_n, c_n \geq 0$(均为非负项),且对于每一项 $n$,两者中至少有一个为 $0$。

    • $b_n + c_n = |a_n|$ :两部分之和等于原项的绝对值。

    • $b_n - c_n = a_n$ :两部分之差还原为原级数项。


二、 收敛性的等价关系

基于上述拆分,可以得出关于级数敛散性的重要判定:

1. 绝对收敛的充要条件

定理:级数 $\sum a_n$绝对收敛$\iff$级数$\sum b_n$与$\sum c_n$ 均收敛

  • 推导逻辑

    • $\sum |a_n|$收敛$\iff$部分和$\sum_{k=1}^n |a_k|$ 有上界。

    • 由于 $b_n, c_n \leq |a_n|$,若 $\sum |a_n|$有上界,则正项级数$\sum b_n$和$\sum c_n$ 必然也都有上界且收敛。

  • 结论:在此情况下,原级数可以表示为两个收敛级数的差:

$$ \sum_{n=1}^\infty a_n = \sum_{n=1}^\infty b_n - \sum_{n=1}^\infty c_n $$

2. 条件收敛的本质

定理:若级数 $\sum a_n$条件收敛$\iff$级数$\sum b_n$与$\sum c_n$ 均发散

  • 直观理解

    • 因为级数收敛,所以 $a_n$必须趋于$0$。

    • 但因为不是绝对收敛($\sum |a_n| = \sum (b_n + c_n)$ 发散),说明正项部分之和与负项部分之和都是无穷大。

    • 条件收敛的奥秘就在于:虽然正部之和是 $+\infty$,负部之和也是 $+\infty$,但它们相减时通过巧妙的抵消,最终达到了一个有限的极限值。

这两种收敛会带来什么结果呢,我们考虑重排。

重排现象

**1. 定义:什么是重排?

  • 原始下标序列:${1, 2, 3, \dots, n, \dots}$

  • 重排下标序列:${n_1, n_2, n_3, \dots, n_k, \dots}$,这是自然数集合到自身的一个一一映射(双射)。

  • 定义:给定级数 $\sum a_n$,称级数 $\sum a_{n_k}$ 为其一个重排级数


2. 核心定理 (Theorem)

若级数 $\sum a_n$绝对收敛,则对于它的任意重排级数$\sum a_{n_k}$:

  1. 重排级数 $\sum a_{n_k}$ 也绝对收敛

  2. 重排级数的和与原级数的和相等,即 $\sum a_{n_k} = \sum a_n$。


3. 证明思路推导 (Proof Sketch)

A. 证明重排后依然绝对收敛

  • 已知 $\sum |a_n|$收敛,其部分和序列$\sum_{i=1}^k |a_i|$ 有界

  • 对于重排级数的任意前 $k$项$|a_{n_1}|, |a_{n_2}|, \dots, |a_{n_k}|$,由于这 $k$个下标必然包含在某个足够大的自然数集合${1, 2, \dots, m}$ 中。

  • 因此有不等式:

$$ \sum_{j=1}^k |a_{n_j}| \leq \sum_{i=1}^m |a_i| $$

  • 因为右侧有界,所以重排级数的绝对值部分和序列也有界,从而得出重排级数 $\sum a_{n_k}$ 绝对收敛。又反过来,右侧也是左侧的重排,所以改换上标后,不等号反向也成立,从而取极限二者只有相等。故重排不改变正项级数的和。

B. 证明级数之和不变

利用正项级数的性质以及级数项的正部($b_n$)与负部($c_n$)拆分:

  • 绝对值之和相等:对于正项级数,重排不改变其和,故 $\sum |a_n| = \sum |a_{n_k}|$。

  • 分部求和:由于绝对收敛,可以将级数拆分为正部 $b_n$和负部$c_n$ 的差:

    • $\sum b_n = \sum b_{n_k}$-$\sum c_n = \sum c_{n_k}$
  • 最终等式

$$ \sum a_n = \sum (b_n - c_n) = \sum b_n - \sum c_n = \sum b_{n_k} - \sum c_{n_k} = \sum (b_{n_k} - c_{n_k}) = \sum a_{n_k} $$


黎曼重排定理 (Riemann Rearrangement Theorem)

1. 定理描述

设级数 $\sum a_n$是一个条件收敛级数。则对于任意实数$A \in \mathbb{R}$(或 $\pm \infty$),都存在原级数的一个重排 $\sum a_{n_k}$,使得该重排级数的和恰好等于 $A$:

$$ \sum_{k=1}^{\infty} a_{n_k} = A $$

2. 核心原理

  • 正负部发散:对于条件收敛级数,其正部 $b_n$和负部$c_n$分别组成的级数$\sum b_n$和$\sum c_n$ 都是发散的。

  • 动态调整:由于正项和负项都有“无限多”且能求出“无限大”的和,我们可以先取足够多的正项使和超过 $A$,再取足够多的负项使和低于 $A$,不断往复。随着项趋于零,这种摆动最终会收敛于目标值 $A$。


经典实例:交错调和级数的重排

1. 标准级数

设交错调和级数的和为 $S$:

$$ a_n: 1 - \frac{1}{2} + \frac{1}{3} - \frac{1}{4} + \frac{1}{5} - \frac{1}{6} + \dots = S $$

(注:实际上 $S = \ln 2$)

2. 重排级数(1个正项 + 2个负项)

我们将项按照“一正二负”的规律重排:

$$ a_{n_k}: \underbrace{1 - \frac{1}{2} - \frac{1}{4}} + \underbrace{\frac{1}{3} - \frac{1}{6} - \frac{1}{8}} + \underbrace{\frac{1}{5} - \frac{1}{10} - \frac{1}{12}} + \dots $$

3. 计算推导

  • 对每一组进行合并计算:

    • $1 - \frac{1}{2} = \frac{1}{2}$-$\frac{1}{3} - \frac{1}{6} = \frac{1}{6}$-$\frac{1}{5} - \frac{1}{10} = \frac{1}{10}$
  • 重排后的级数变为:

$$ \frac{1}{2} - \frac{1}{4} + \frac{1}{6} - \frac{1}{8} + \frac{1}{10} - \frac{1}{12} + \dots $$

  • 提取公因子 $\frac{1}{2}$:

$$ = \frac{1}{2} \left( 1 - \frac{1}{2} + \frac{1}{3} - \frac{1}{4} + \dots \right) $$

  • 结论:重排后的级数和变成了原级数和的一半:

$$ \sum a_{n_k} = \frac{1}{2} S $$


总结

该定理揭示了条件收敛绝对收敛的本质区别:

  • 绝对收敛级数:具有“交换律”,重排不改变和。

  • 条件收敛级数:不满足交换律,其和取决于项的排列顺序。

那么我们有什么手段判别条件收敛呢?


阿贝尔变换 (Abel’s Transformation)

核心公式

设 ${\alpha_k}$和${\beta_k}$是两个数列,令$B_n = \sum_{k=1}^{n} \beta_k$为${\beta_k}$的前$n$项和,并规定$B_0 = 0$。则有:

$$ \sum_{k=1}^{n} \alpha_k \beta_k = \alpha_n B_n - \sum_{k=1}^{n-1} (\alpha_{k+1} - \alpha_k) B_k $$


“离散分部积分”?

考虑分部积分:

$$ \int_{0}^{1} f g' \, dx = \left. fg \right|_0^1 - \int_{0}^{1} f' g \, dx $$

我们可以发现阿贝尔变换与它有极强的对称性

  • 累加 vs. 积分:$\sum \beta_k$对应$\int g’ dx = g$($B_k$相当于$g$)。

  • 差分 vs. 导数:$(\alpha_{k+1} - \alpha_k)$对应$f’$。

  • 边界项:$\alpha_n B_n$对应$f(1)g(1)$。由于 $B_0=0$ ,另一个边界项隐去。

推导

其核心思想是将数列 $\beta_k$写成部分和的差分形式,即利用$\beta_k = B_k - B_{k-1}$(定义 $B_0 = 0$)。

1. 展开原级数

将 $\beta_k$替换为$(B_k - B_{k-1})$,并将求和式展开:

$$ \sum_{k=1}^n \alpha_k \beta_k = \alpha_1(B_1 - B_0) + \alpha_2(B_2 - B_1) + \alpha_3(B_3 - B_2) + \dots + \alpha_n(B_n - B_{n-1}) $$

2. 重新组合 (Regrouping)

观察展开后的每一项,按照相同的 $B_k$进行合并。例如,包含$B_1$的项有$\alpha_1 B_1$和$-\alpha_2 B_1$,合并后得到 $(\alpha_1 - \alpha_2)B_1$:

$$ = (\alpha_1 - \alpha_2)B_1 + (\alpha_2 - \alpha_3)B_2 + \dots + (\alpha_{n-1} - \alpha_n)B_{n-1} + \alpha_n B_n $$

注意:由于 $B_0 = 0$,第一项中的 $\alpha_1 B_0$消失了;而最后一项$\alpha_n B_n$ 没有对应的项与之抵消,因此保留。

3. 归纳为求和形式

将中间的差分项提取负号,写回 $\sum$ 符号:

$$ = -\sum_{k=1}^{n-1} (\alpha_{k+1} - \alpha_k) B_k + \alpha_n B_n $$

这个变换可以帮助我们讨论任意项级数的敛散性。

阿贝尔引理(Abel’s Lemma)的估计推导

1. 前置条件 (Assumptions)

  • 单调性:设 ${\alpha_n}$ 是单调数列(Monotonic sequence)。

  • 有界性:设 ${\beta_n}$的部分和$B_n = \sum_{k=1}^n \beta_k$有界,即存在$M > 0$,使得对所有 $n$,都有 $|B_n| \leq M$。

2. 核心结论 (The Conclusion)

$$ \left| \sum_{k=1}^n \alpha_k \beta_k \right| \leq M (|\alpha_1| + 2|\alpha_n|) $$


3. 逐步推导过程 (Step-by-Step Derivation)

第一步:套用阿贝尔变换

利用前面推导的公式,将原式展开:

$$ \left| \sum_{k=1}^n \alpha_k \beta_k \right| = \left| \sum_{k=1}^{n-1} (\alpha_k - \alpha_{k+1}) B_k + \alpha_n B_n \right| $$

第二步:三角不等式放大

利用 $|a+b| \leq |a| + |b|$以及$|B_k| \leq M$:

$$ \leq \left( \sum_{k=1}^{n-1} |\alpha_k - \alpha_{k+1}| + |\alpha_n| \right) M $$

第三步:利用单调性脱去绝对值

这是最关键的一步。因为 ${\alpha_n}$是单调的,所以所有的差分项$(\alpha_k - \alpha_{k+1})$ 符号相同。这意味着绝对值的和等于和的绝对值(即裂项相消):

$$ \sum_{k=1}^{n-1} |\alpha_k - \alpha_{k+1}| = \left| \sum_{k=1}^{n-1} (\alpha_k - \alpha_{k+1}) \right| = |\alpha_1 - \alpha_n| $$

第四步:最终整理

将结果代回估计式:

$$ = (|\alpha_1 - \alpha_n| + |\alpha_n|) M $$

再利用一次三角不等式 $|\alpha_1 - \alpha_n| \leq |\alpha_1| + |\alpha_n|$,得到最终的上界:

$$ \leq (|\alpha_1| + 2|\alpha_n|) M $$

狄利克雷判别法

1. 定理描述 (Theorem Statement)

对于级数 $\sum_{n=1}^{\infty} a_n b_n$,如果满足以下两个条件:

  1. 数列 ${a_n}$单调 (Monotonic),且其极限为 0,即$\lim_{n \to \infty} a_n = 0$。

  2. 级数 $\sum b_n$的部分和数列有界。也就是说,存在一个常数$M > 0$,使得对于所有的 $n$,都有:

$$ \left| \sum_{k=1}^{n} b_k \right| < M $$

则级数 $\sum_{n=1}^{\infty} a_n b_n$ 收敛 (Convergent)。


2. 证明思路 (Outline of Proof)

利用 Cauchy 收敛准则 进行控制放大:

  • 目标: 控制余项 $\left| \sum_{k=n+1}^{n+p} a_k b_k \right|$,使其在 $n \to \infty$ 时趋于 0。

  • 已知条件的应用:

    由于 $\left| \sum_{k=1}^{n} b_k \right| < M$,那么对于任意的 $n, p$:

$$ \left| \sum_{k=n+1}^{n+p} b_k \right| = \left| \sum_{k=1}^{n+p} b_k - \sum_{k=1}^{n} b_k \right| \leq \left| \sum_{k=1}^{n+p} b_k \right| + \left| \sum_{k=1}^{n} b_k \right| \leq 2M $$

  • 阿贝尔变换 (Abel Transformation) 的核心步骤:

    利用阿贝尔引理进行放大:

$$ \left| \sum_{k=n+1}^{n+p} a_k b_k \right| \leq 2M (|a_{n+1}| + 2|a_{n+p}|) \leq 6M \cdot |a_{n+1}| $$

随着 $n \to \infty$,由于已知 $\lim_{n \to \infty} a_n = 0$,所以 $6M \cdot |a_{n+1}| \to 0$。

  • 结论: 根据 Cauchy 准则,该级数收敛。

与莱布尼茨判别法

取 $b_n$为$(-1)^n$ ,就发现莱布尼茨判别法实际上是狄利克雷判别法的特例。

阿贝尔判别法 (Abel’s Test)

1. 定理内容

若级数满足以下两个条件:

  1. 数列 ${a_n}$ 单调且有界

  2. 级数 $\sum_{n=1}^{\infty} b_n$ 收敛

则级数 $\sum_{n=1}^{\infty} a_n b_n$ 收敛


2. 证明思路

通过构造辅助数列,将阿贝尔判别法转化为狄利克雷判别法(Dirichlet’s Test):

  • 设定极限

    由于 ${a_n}$单调有界,根据单调有界准则,数列必有极限。设$\lim_{n \to \infty} a_n = A$。

  • 构造新数列

    令 $\tilde{a}_n = a_n - A$。

    显然,数列 ${\tilde{a}_n}$依然保持单调性,且当$n \to \infty$ 时,$\tilde{a}_n \to 0$。

  • 级数拆分

    利用线性性质将原级数展开:

$$ \sum a_n b_n = \sum (\tilde{a}_n + A) b_n = \sum \tilde{a}_n b_n + \sum A b_n $$

  • 收敛性分析

    • 项 $\sum A b_n$:因为 $\sum b_n$收敛,由级数性质可知常数倍级数$A \sum b_n$ 必然收敛。

    • 项 $\sum \tilde{a}_n b_n$

      • ${\tilde{a}_n}$单调且趋于$0$;

      • $\sum b_n$收敛,意味着其部分和数列$S_n = \sum_{k=1}^{n} b_k$ 有界。

      • 根据狄利克雷判别法,这两者结合保证了 $\sum \tilde{a}_n b_n$ 收敛。

结论:两个收敛级数之和依然收敛,故 $\sum a_n b_n$ 收敛

当然也可以不用狄利克雷判别法,直接利用阿贝尔引理说明。读者自证不难(

阅读全文

5月日记

日记类 2026/5/1

May~

阅读全文

1.重积分

2026/4/19

定义

在单变量的微积分中,我们通过黎曼和定义了定积分,那同样,我们可以通过它定义多重积分:

二重积分的黎曼和定义:

$$ \iint_D f(x,y)\,dA =\lim_{\max \Delta S_{ij}\to 0} \sum_{i,j} f(\xi_{ij},\eta_{ij})\,\Delta S_{ij} $$

三重积分:

$$ \iiint_\Omega f(x,y,z)\,dV =\lim_{\max \Delta V_{ijk}\to 0} \sum_{i,j,k} f(\xi_{ijk},\eta_{ijk},\zeta_{ijk})\,\Delta V_{ijk} $$


特征都差不多,同样是把一块区域划分成小块,从而化曲为直便于计算,也同样要求分割“直径”趋于0。

重积分的基本性质

这部分可以飞速浏览,几乎完全符合直觉()

设 $f,g$在区域$D$(或 $\Omega$)上可积,$\lambda,\mu \in \mathbb{R}$。


1. 线性(Linearity)

$$ \iint_D (\lambda f + \mu g)\,dA = \lambda \iint_D f\,dA + \mu \iint_D g\,dA $$

三重积分同理:

$$ \iiint_\Omega (\lambda f + \mu g)\,dV = \lambda \iiint_\Omega f\,dV + \mu \iiint_\Omega g\,dV $$

本质:积分是“极限下的加权求和”,线性来自求和的线性。


2. 区域可加性(Additivity over domain)

若 $D = D_1 \cup D_2$且$D_1,D_2$ 内部不重叠,则

$$ \iint_D f\,dA = \iint_{D_1} f\,dA + \iint_{D_2} f\,dA $$

更一般:

$$ D = \bigcup_{k=1}^n D_k \quad (\text{两两内部不交}) \Rightarrow \iint_D f\,dA = \sum_{k=1}^n \iint_{D_k} f\,dA $$

本质:黎曼和可以拆块。


3. 保序性(Monotonicity)

若 $f(x,y) \le g(x,y)$,则

$$ \iint_D f\,dA \le \iint_D g\,dA $$

特别地:

$$ f(x,y) \ge 0 \Rightarrow \iint_D f\,dA \ge 0 $$

本质:每个小块上都不超过,总和自然不超过。


4. 估计(Bounding)

$$ m \le f(x,y) \le M $$

$$ m \cdot |D| \le \iint_D f\,dA \le M \cdot |D| $$

其中 $|D|$ 表示区域面积。

三维对应:

$$ m|\Omega| \le \iiint_\Omega f\,dV \le M|\Omega| $$

本质:函数被夹住 ⇒ 积分被夹住。


5. 绝对值不等式

$$ \left| \iint_D f\,dA \right| \le \iint_D |f|\,dA $$

本质:积分不会比“把每块都取绝对值再加”更大。


6. 积分中值定理(Integral Mean Value Theorem)

若 $f$在有界闭区域$D$上连续,则存在$(\xi,\eta)\in D$ 使得

$$ \iint_D f(x,y)\,dA = f(\xi,\eta)\cdot |D| $$

三维:

$$ \iiint_\Omega f\,dV = f(\xi,\eta,\zeta)\cdot |\Omega| $$

本质:积分 = “某个代表值 × 体积”。


7. 与常数函数的关系

$$ \iint_D 1\,dA = |D| $$

$$ \iiint_\Omega 1\,dV = |\Omega| $$

本质:积分统一了“面积/体积”的概念。


那么如何计算呢?我们先看看二维。

计算

我们会算的也就是一重积分,所以自然想到能不能把二重积分变成一重积分,这也就是所谓累次积分:

Fubini 定理(基本形式):

$$ \iint_D f(x,y)\,dA = \int_a^b \left(\int_{c(x)}^{d(x)} f(x,y)\,dy\right)\,dx $$

$$ \iint_D f(x,y)\,dA = \int_c^d \left(\int_{a(y)}^{b(y)} f(x,y)\,dx\right)\,dy $$


分割

不过与一维情形不同,多个变量之间互相制约,所以积分上下限可能包含其他变量,这很多时候也是形式复杂的源头。

我们应该划分好区域,让变量上下界秩序分明:

I 型区域(竖切):

$$ D=\{(x,y)\mid a\le x\le b,\ c(x)\le y\le d(x)\} $$

对应

$$ \iint_D f(x,y)\,dA = \int_a^b \int_{c(x)}^{d(x)} f(x,y)\,dy\,dx $$

II 型区域(横切):

$$ D=\{(x,y)\mid c\le y\le d,\ a(y)\le x\le b(y)\} $$

对应

$$ \iint_D f(x,y)\,dA = \int_c^d \int_{a(y)}^{b(y)} f(x,y)\,dx\,dy $$

变量依赖关系(本质约束):

$$ \text{内层积分变量的上下限可以含外层变量,但反之不行} $$


这样,再运用一次次定积分也就解决了所有问题。三维,乃至高维,也只是重复多次。

三重积分累次积分形式:

$$ \iiint_\Omega f(x,y,z)\,dV = \int_a^b \int_{c(x)}^{d(x)} \int_{e(x,y)}^{g(x,y)} f(x,y,z)\,dz\,dy\,dx $$


换元

那么,我们也可以利用换元来简化积分。在一维中:

一维换元公式:

$$ \int f(x)\,dx = \int f(x(t))\,x'(t)\,dt $$

那么 $dxdy$ 怎么换呢?

设参数变换:

$$ (x,y) = (x(u,v),\,y(u,v)) $$

考虑微元变化:

$$ \mathbf r(u+du,v)\approx \mathbf r + \mathbf r_u\,du $$

$$ \mathbf r(u,v+dv)\approx \mathbf r + \mathbf r_v\,dv $$

则面积元为:

面积元(叉积形式):

$$ dA = |\mathbf r_u \times \mathbf r_v|\,dudv $$

计算可得,这正是雅可比行列式:

雅可比行列式(二维):

$$ \frac{\partial(x,y)}{\partial(u,v)} = \begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{vmatrix} $$

于是得到:

二重积分换元公式:

$$ \iint_D f(x,y)\,dxdy = \iint_{D'} f(x(u,v),y(u,v)) \left|\frac{\partial(x,y)}{\partial(u,v)}\right| \,dudv $$


在三维中,我们则变成混合积:

$$ V = |\mathbf{A} \cdot (\mathbf{B} \times \mathbf{C})| $$

从而换元变成:

$$ \begin{aligned} dV' &= |(\mathbf{r}_u du) \cdot ((\mathbf{r}_v dv) \times (\mathbf{r}_w dw))| \\ &= |\mathbf{r}_u \cdot (\mathbf{r}_v \times \mathbf{r}_w)| \cdot du dv dw \end{aligned} $$

恰好也是雅可比行列式:

$$ \mathbf{r}_u \cdot (\mathbf{r}_v \times \mathbf{r}_w) = \det \begin{pmatrix} \frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} & \frac{\partial z}{\partial u} \\ \frac{\partial x}{\partial v} & \frac{\partial y}{\partial v} & \frac{\partial z}{\partial v} \\ \frac{\partial x}{\partial w} & \frac{\partial y}{\partial w} & \frac{\partial z}{\partial w} \end{pmatrix} $$

三维雅可比行列式:

$$ \frac{\partial(x,y,z)}{\partial(u,v,w)} = \begin{vmatrix} x_u & x_v & x_w\\ y_u & y_v & y_w\\ z_u & z_v & z_w \end{vmatrix} $$

三重积分换元公式:

$$ \iiint_\Omega f(x,y,z)\,dV = \iiint_{\Omega'} f(x(u,v,w),y(u,v,w),z(u,v,w)) \left|\frac{\partial(x,y,z)}{\partial(u,v,w)}\right| \,dudvdw $$


我们可以计算常见坐标变换:

极坐标:

$$ x=r\cos\theta,\quad y=r\sin\theta $$

$$ dxdy = r\,dr\,d\theta $$


柱坐标:

$$ x=r\cos\theta,\quad y=r\sin\theta,\quad z=z $$

$$ dV = r\,dr\,d\theta\,dz $$


球坐标:

$$ x=\rho\sin\varphi\cos\theta,\quad y=\rho\sin\varphi\sin\theta,\quad z=\rho\cos\varphi $$

$$ dV = \rho^2\sin\varphi\,d\rho\,d\varphi\,d\theta $$


一般维度也是雅可比行列式吗,我们可以这样看:

$$ \begin{pmatrix} dx \\ dy \end{pmatrix} \approx \begin{pmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{pmatrix} \begin{pmatrix} du \\ dv \end{pmatrix} $$

联系线性代数,我们知道行列式代表着体积,所以确实,对于一般的情形,直接上行列式就好了!

实操

那么我们便可以小结一下:

1.考虑对称,换元

2.划分变量区域

3.积分

我们来实操一下。

1. 考虑对称,简化被积函数

观察被积函数的分子 $(x+y+z)^2 = x^2+y^2+z^2 + 2xy + 2yz + 2zx$。

由于积分区域 $\Omega$关于$Oyz$、$Oxz$和$Oxy$ 三个坐标面均具有对称性,根据奇函数在对称区域上的积分为零

  • 交叉项 $\iiint_{\Omega} 2xy , dV = \iiint_{\Omega} 2yz , dV = \iiint_{\Omega} 2zx , dV = 0$。

因此,复杂的分子被“脱壳”简化为径向平方和:

$$ f(x,y,z) = \frac{x^2+y^2+z^2}{(x^2+y^2+z^2)^2} = \frac{1}{x^2+y^2+z^2} $$


2. 换元,划分变量区域

为了处理分母中的 $r^2$ 和区域的旋转对称性,引入球坐标换元:

  • 球面: $\rho = 2$- 抛物面:$z = \frac{1}{3}(x^2+y^2) \implies \rho \cos\phi = \frac{1}{3}\rho^2 \sin^2\phi \implies \rho = \frac{3\cos\phi}{\sin^2\phi}$通过联立方程$2 = \frac{3\cos\phi}{\sin^2\phi}$,解得交线处的临界角 $\phi = \frac{\pi}{3}$

据此,我们将积分区域 $\Omega$在$\phi$ 方向上划分为秩序分明的两部分:

  • 区域 I ($0 \le \phi \le \frac{\pi}{3}$): 径向受限于球面,$0 \le \rho \le 2$。

  • 区域 II ($\frac{\pi}{3} < \phi \le \frac{\pi}{2}$): 径向受限于抛物面,$0 \le \rho \le \frac{3\cos\phi}{\sin^2\phi}$。


3. 积分计算(Jacobi 抵消与分段累加)

利用球坐标体积元 $dV = \rho^2 \sin\phi , d\rho d\phi d\theta$,被积函数中的 $1/\rho^2$与 Jacobi 因子抵消,积分简化为对$\sin\phi$ 的分段累次积分:

$$ I = \int_{0}^{2\pi} d\theta \left[ \int_{0}^{\frac{\pi}{3}} d\phi \int_{0}^{2} \sin\phi \, d\rho + \int_{\frac{\pi}{3}}^{\frac{\pi}{2}} d\phi \int_{0}^{\frac{3\cos\phi}{\sin^2\phi}} \sin\phi \, d\rho \right] $$

分步求解:

  • 第一部分: $2\pi \int_{0}^{\frac{\pi}{3}} 2\sin\phi , d\phi = 4\pi [-\cos\phi]{0}^{\frac{\pi}{3}} = 4\pi (\frac{1}{2}) = 2\pi$- 第二部分:$2\pi \int{\frac{\pi}{3}}^{\frac{\pi}{2}} \sin\phi \cdot \frac{3\cos\phi}{\sin^2\phi} , d\phi = 6\pi \int_{\frac{\pi}{3}}^{\frac{\pi}{2}} \frac{\cos\phi}{\sin\phi} , d\phi = 6\pi [\ln(\sin\phi)]_{\frac{\pi}{3}}^{\frac{\pi}{2}}$

    代入得:$6\pi (\ln 1 - \ln \frac{\sqrt{3}}{2}) = -6\pi \ln \frac{\sqrt{3}}{2}$

最终结果:

$$ I = 2\pi - 6\pi \ln \frac{\sqrt{3}}{2} = 2\pi \left( 1 - 3\ln\frac{\sqrt{3}}{2} \right) $$

阅读全文
1 ... 7 8 9 ... 14