
1.贝叶斯定理是
$$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$
说明后验概率可以由先验概率和似然得到。
最大似然估计 $MLE$即最大化似然,在已知观测数据$B$的情况下,寻找使似然函数$P(B|A)$最大化的参数$A^*$。
最大后验估计 $MAP$即最大化后验概率,即最大化$P(B|A)P(A)$ 。
2 . $\mu=\bar{x},\sigma^2=\frac{1}{n}\sum{(x-\bar{x})^2}$
3。输出值离散,连续。分别用于寻找决策边界,拟合映射函数。
4。数据有无正确标签。分别用于学习映射关系,发现数据的结构。
5.特征数大于参数量时或 $A^TA$ 不可逆时无 closed form,反之可有。
6.参数较小但一般非零,原因:正则化项为平方,对应超球,倾向离原点更近。
Lasso的解较稀疏,原因:正则化项为 $L_1$ 范数,在多维空间中具有菱形顶点,更倾向于贴向坐标轴。
7.从model function看,Linear regression只用线性模型,而 Logistic regression 加上了 sigmoid 函数使得输出被压缩到0到1.
从Loss function看,Linear regression用Square loss,Logistic regression用Cross Entropy,以避免梯度消失。
从optimization solution看,都是反向传播梯度下降来优化参数。
8.选取邻居的个数,以及距离度量方式。通过 Cross Validation 选择。
1.损失函数为度量模型输出和期望的输出间的函数,通过最小化损失函数我们可以得到想要的输出,损失函数提供了量化输出的方法。学习率是梯度下降中梯度的系数,通过调控学习率,使得梯度下降有适当的速率,同时避免震荡。
2.线性回归的损失函数为 Square Loss ,也就是
$$ \mathcal{L}(\mathbf{W}, b) = \frac{1}{2} (\hat{y} - y)^2 = \frac{1}{2} (\mathbf{W}^\top \mathbf{x} + b - y)^2 $$
3.根据链式法则进行推导:
对 $b$ 求偏导
$$ \frac{\partial \mathcal{L}}{\partial b} = (\mathbf{W}^\top \mathbf{x} + b - y) \cdot 1 = \hat{y} - y $$
对 $\mathbf{W}$ 求偏导:
$$ \frac{\partial \mathcal{L}}{\partial \mathbf{W}} = (\mathbf{W}^\top \mathbf{x} + b - y) \cdot \mathbf{x} = (\hat{y} - y)\mathbf{x} $$
$$ \mathbf{W}_{n+1} = \mathbf{W}_n - [\nabla^2 \mathcal{L}(\mathbf{W}_n, b_n)]^{-1} \nabla \mathcal{L}(\mathbf{W}_n, b_n) $$

1.让函数变得非线性,从而可以处理更复杂的边界。
2.带入 $h$整理就知道$\hat{y} = (\mathbf{W}_2^\top \mathbf{W}_1^\top) \mathbf{x} + (\mathbf{W}_2^\top \mathbf{b}_1 + b_2)$ ,只是把矩阵稍作改换,仍然是线性模型的形式。
3.线性层堆叠仍然线性,故为了处理更复杂的边界,需要引入非线性函数。
4.sigmoid:类似S型曲线的函数,通常和 Logistic 函数 $\frac{1}{1+e^x}$混用。tanh即双曲函数。ReLU 为$max(0,x)$ 。
5.对一个包含 $K$个类别的输出向量$\mathbf{z} = [z_1, z_2, \dots, z_K]$,Softmax 的第 $i$ 个分量定义为:
$$ \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}} $$
6.使概率归一化,同时放大 logits 的差异,让模型更“自信”

1.$f(x) = 0.5x + 1$,损失均为0
$$ \mathcal{L}(\mathbf{w}) = \frac{1}{2m} \sum_{i=1}^{m} (\mathbf{w}^\top \mathbf{x}_i - y_i)^2 $$
初始化 $\mathbf{w} = (0, 0, 0, 0, 0)^\top$,学习率 $\eta = 0.1$。
梯度更新公式:$\mathbf{w}^{(1)} = \mathbf{w}^{(0)} - \eta \cdot \nabla_{\mathbf{w}} \mathcal{L}$。
梯度 $\nabla_{\mathbf{w}} \mathcal{L} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i) \mathbf{x}_i$。
计算过程:
初始预测值 $\hat{y}_i = \mathbf{0}^\top \mathbf{x}_i = 0$。
误差 $(\hat{y}_i - y_i)$ 分别为:$-1, -1.5, -2, -2.5$。
样本向量 $\mathbf{x}$ 分别为:$(1,0,0,0,0)^\top, (1,1,1,1,1)^\top, (1,2,4,8,16)^\top, (1,3,9,27,81)^\top$。
平均梯度 $\nabla_{\mathbf{w}} \mathcal{L} = \frac{1}{4} [(-1)\mathbf{x}_1 + (-1.5)\mathbf{x}_2 + (-2)\mathbf{x}_3 + (-2.5)\mathbf{x}_4] = (-1.75, -2.25, -6.625, -20.875, -53.625)^\top$。
更新:$\mathbf{w}^{(1)} = \mathbf{0} - 0.1 \cdot \nabla_{\mathbf{w}} \mathcal{L} = \mathbf{[0.175, 0.225, 0.6625, 2.0875, 5.3625]^\top}$。
训练集损失计算:
根据模型 $\hat{y} = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4$,代入各训练点:
$x=0$: $\hat{y} = 1.0$
$x=1$: $\hat{y} \approx 1.0 \times 10^5$
$x=2$: $\hat{y} \approx 5.0 \times 10^5$
$x=3$: $\hat{y} \approx 1.5 \times 10^6$
训练集均方误差 :
$$ MSE_{train} \approx 6.27 \times 10^{11} $$
测试集损失计算:
对于测试点 $x=4, y=3$:
- 预测值 $\hat{y}$:
$$ \hat{y} = 1.0 + 24998.75(4) + 45831.96(16) + 24999.25(64) + 4166.54(256) $$
$$ \hat{y} \approx 3,499,893.6 $$
- 测试集均方误差:
$$ MSE_{test} = (3499893.6 - 3)^2 \approx 1.22 \times 10^{13} $$
现象:梯度爆炸。
原因:
模型复杂度过高:使用了 4 次多项式模型。
学习率过大。
初始化不当。
定义:
L1 正则化 (Lasso):在损失函数后加上权重绝对值之和 $\lambda |\mathbf{w}|_1$。
L2 正则化 (Ridge):在损失函数后加上权重平方和的一半 $\frac{\lambda}{2} |\mathbf{w}|_2^2$。
分析:
修改损失函数? 是。增加了惩罚项。
修改网络结构? 否。网络层数和神经元数量保持不变。
改变参数更新过程? 是。在梯度下降中,梯度会包含正则项的导数(如 L2 会引入Weight Decay)。
Data Augmentation:获取更多样化的训练样本。
早停法:在验证集损失上升前停止训练。
Dropout:在神经网络中随机使部分神经元失活。
简化模型:降低多项式的次数(例如改用线性回归)。

1.感受野是指在 CNN 中,每一层输出的特征图上的一个像素点在原始输入图像上对应的区域大小。
计算公式如下:
$RF_{i} = RF_{i-1} + (k_i - 1) \cdot \prod_{j=1}^{i-1} s_j$
其中:
$RF_i$是第$i$ 层的感受野。
$RF_{i-1}$是前一层的感受野(输入层的$RF_0 = 1$)。
$k_i$是第$i$ 层的卷积核(或池化核)大小。
$s_j$是第$j$ 层的步长。
| 模型 | 不同点 | 相同点 |
|---|---|---|
| R-CNN | 原始版本。对 候选区域分别进行卷积计算,速度极慢,占用空间大。 | 1. 都是二阶段方法。 |
| SPP Net | 引入空间金字塔池化。全图只进行一次卷积,在特征图上提取候选区域,解决了输入尺寸必须固定的问题。 | 2. 都依赖候选区域生成算法(如 Selective Search)。 |
| Fast R-CNN | 将分类与边界框回归整合进一个网络。引入 RoI Pooling,大大提升了训练速度。 | 3. 最后都包含分类头和回归头。 |
| Faster R-CNN | 提出 RPN。用神经网络取代了速度慢的传统算法,实现了真正意义上的端到端训练。 | — |
相同点
循环结构:两者都用于处理序列数据(如文本、音频、时间序列)。
状态传递:都利用隐藏状态来传递过去时间步的信息。
不同点
结构复杂度:
RNN:结构非常简单,只有一个单一的 $tanh$ 层进行循环。
LSTM:结构复杂,引入了 门控机制,包含输入门、遗忘门、输出门以及细胞状态。
LSTM 的优势
解决长程依赖问题:RNN 在处理长序列时容易出现 梯度消失 或 梯度爆炸。LSTM 通过细胞状态的长线传输,能有效保留远距离的信息。
记忆管理:
遗忘门:决定丢弃哪些无关信息。
输入门:决定存入哪些新信息。
输出门:决定当前输出哪些信息。