以下每一个模块都包含了:问题提炼 $\rightarrow$ 概念拆解 $\rightarrow$ 核心考点答案。
主题 1: 神经网络 (Neural Networks) 与似然函数的映射
【自问】
在神经网络中,为什么回归问题通常使用均方误差 (MSE) 作为损失函数,而分类问题改用交叉熵 (Cross-Entropy)?从概率论的角度如何解释这种选择的必然性?
【概念解释】
神经网络的训练本质上是最大似然估计 (MLE)。神经网络输出的不仅仅是一个预测值,而是给定输入 $x$ 时,目标变量 $y$ 的条件概率分布 $p(y\mid x, \theta)$ 的参数。损失函数的设计直接取决于我们对目标变量 $y$ 假设了哪种概率分布。
【标准答案 / 考点】
- 回归问题 (MSE = Gaussian Likelihood): 假设观测值包含高斯噪声,即 $y\mid x \sim \mathcal{N}(f_\theta(x), \sigma^2I)$。最大化该高斯分布的对数似然 (Log-Likelihood),常数项忽略后,等价于最小化负对数似然 $\frac{1}{2\sigma^2} \lVert y - f_\theta(x)\rVert^2$,这正是均方误差 (MSE)。
- 分类问题 (Cross-Entropy = Categorical Likelihood): 目标 $y$ 是离散类别,假设 $y\mid x$ 服从伯努利分布 (二分类) 或多项分布 (多分类)。网络最后一层通过 Softmax 输出属于各类的概率 $p(y_c\mid x) = \hat{y}_c$。最大化多项分布的似然,等价于最小化负对数似然 $-\sum y_c \log(\hat{y}_c)$,这正是交叉熵损失。
主题 2: 变分自编码器 (Variational Autoencoders, VAE)
【自问】
VAE 的损失函数 (ELBO) 由哪两部分组成?它们各自起到了什么物理作用?为什么在训练 VAE 时必须引入「重参数化技巧」 (Reparameterization Trick)?
【概念解释】
标准自编码器 (Deterministic AE) 强行将输入映射为潜空间 (Latent Space) 的一个固定点,这会导致潜空间不连续(两点之间插值可能毫无意义)。VAE 改变了这一设定:Encoder 不再输出点,而是输出一个概率分布的参数(均值 $\mu$ 和方差 $\sigma^2$)。VAE 的目标是最大化数据的边缘似然 $p(x)$,但由于积分不可解,只能最大化其变分下界 (ELBO)。
【标准答案 / 考点】
- ELBO 结构: $\mathcal{L}_{\mathrm{ELBO}} = \mathbb{E}_{q(z\mid x)}[\log p(x\mid z)] - D_{\mathrm{KL}}(q(z\mid x) \Vert p(z))$
- 重构项 (Reconstruction Term, 第一项): 衡量 Decoder 从潜变量 $z$ 还原 $x$ 的能力(通常是 MSE 或二元交叉熵)。
- 正则化项 (Regularization Term, 第二项): 计算后验 $q(z\mid x)$ 与标准正态先验 $p(z)$(通常是 $\mathcal{N}(0,I)$)的 KL 散度。它强制潜空间具有平滑的拓扑结构,防止不同的类簇在潜空间中产生断层。
- 重参数化技巧: 因为 $z \sim \mathcal{N}(\mu, \sigma^2)$ 是一个随机采样操作,梯度无法穿过随机节点反向传播给 Encoder。引入 $z = \mu + \sigma \odot \epsilon$(其中 $\epsilon \sim \mathcal{N}(0, I)$)。这样随机性被推到了 $\epsilon$ 上,梯度可以顺滑地沿确定性路径对 $\mu$ 和 $\sigma$ 求导。
主题 3: 扩散模型 (Diffusion Models)
【自问】
简述扩散模型的前向过程 (Forward) 和逆向过程 (Reverse)。在 DDPM (Denoising Diffusion Probabilistic Models) 中,神经网络在训练时实际上在预测什么?目标函数是什么形式?
【概念解释】
扩散模型是一种基于非平衡热力学的生成模型。它包含两个马尔可夫链 (Markov Chains):前向链通过逐渐添加高斯噪声将数据分布「摧毁」成纯各向同性高斯噪声;逆向链则学习如何一步步去噪,从随机噪声中「雕刻」出数据分布。
【标准答案 / 考点】
- 前向过程 $q(x_t\mid x_{t-1})$: 是一个无需训练的固定过程。给定初始图像 $x_0$,随着时间步 $t$ 的增加,向数据中添加预先设定方差 ($\beta_t$) 的高斯噪声。
- 逆向过程 $p_\theta(x_{t-1}\mid x_t)$: 是神经网络需要学习的过程。理论上,只要每一步添加的噪声足够小,逆向过程也是一个高斯分布。
- 训练目标: 神经网络(通常是 U-Net 架构)并不是直接预测去噪后的原始图像 $x_0$,而是预测在步骤 $t$ 时刻被添加到图像中的那一项纯高斯噪声 $\epsilon$。(这在数学上等价于 Score Matching,即预测对数数据密度的梯度)。
- 简化版损失函数:
(其中 $\epsilon_\theta$ 是网络的预测输出,输入是加噪后的图像和时间步 $t$)。
主题 4: 词向量、注意力机制与 Transformers
【自问】
与传统的静态词向量(如 Word2Vec)相比,Transformer 中的自注意力机制 (Self-Attention) 是如何解决「一词多义」问题的?简述 Query (Q), Key (K), Value (V) 的矩阵计算逻辑及其含义。
【概念解释】
Word2Vec(比如你们 Practice 里的 Skip-gram)为词汇表中的每个词分配一个固定的向量。这意味着 “bank”(银行)和 “bank”(河岸)在空间中永远是同一个向量,缺乏上下文感知。Transformer 放弃了静态表征,引入了动态上下文表征。序列中的每个词都会去「观察」句子中的其他所有词,并根据其他词的信息更新自己的向量表征。
【标准答案 / 考点】
- 一词多义的解决: 自注意力机制使得 “bank” 最终的向量表征是它自身与句子中所有其他词(如 “water”, “money”)特征向量的加权和。上下文不同,权重分布就不同,最终输出的向量就不同。
- Q, K, V 机制: 对于输入序列矩阵 $X$,通过三个不同的权重矩阵映射出 $Q = XW_Q$, $K = XW_K$, $V = XW_V$。
- Query (Q - 查询): 类似搜索词,表示「当前词需要寻找什么上下文信息」。
- Key (K - 键): 类似标签,表示「当前词能提供什么特征」。
- Value (V - 值): 当前词实际包含的内容/信息。
- 计算公式 (Scaled Dot-Product Attention):
$QK^T$ 计算词与词之间的相关度得分矩阵(除以 $\sqrt{d_k}$ 是为了缩放,防止内积过大导致 Softmax 梯度消失)。Softmax 将得分转化为和为 1 的概率权重。最后乘上 $V$,实现信息的加权聚合。
主题 5: MCMC 采样方法对比 (MH vs. Gibbs vs. HMC)
【自问】
简述 Metropolis-Hastings (MH), Gibbs Sampling 和 Hamiltonian Monte Carlo (HMC) 在转移机制上的核心差异。
【考点/答案】
这三者都属于生成相依序列的马尔可夫链蒙特卡洛 (MCMC) 方法。
- Metropolis-Hastings (MH): 提出一个状态 $x'$,通过接受率 $A(x'\mid x^{(t)}) = \min\left\{1, \dfrac{\tilde{p}(x')q(x^{(t)}\mid x')}{\tilde{p}(x^{(t)})q(x'\mid x^{(t)})}\right\}$ 来决定是否跳转。
- Gibbs Sampling: 是 MH 的特例。它逐个坐标轴轮流采样,每次从给定其他变量的条件分布 $p(x_j \mid x_{-j}^{(t-1)})$ 中抽取新值。它的特点是无需拒绝,接受率永远为 1。
- Hamiltonian Monte Carlo (HMC): 为了解决高维空间随机游走效率低的问题,引入了辅助的动量变量 (Momentum) $v \sim \mathcal{N}(0, I)$。利用 Leapfrog 积分器沿着目标分布的几何轨迹前进,使得模型可以在等高线(能量相近)上进行大步长跳转,且更倾向于停留在低能量(高概率)区域。