机器学习核心概念速记：从似然到 MCMC

以下每一个模块都包含了：问题提炼 $\rightarrow$ 概念拆解 $\rightarrow$ 核心考点答案。

主题 1: 神经网络 (Neural Networks) 与似然函数的映射

【自问】

在神经网络中，为什么回归问题通常使用均方误差 (MSE) 作为损失函数，而分类问题改用交叉熵 (Cross-Entropy)？从概率论的角度如何解释这种选择的必然性？

【概念解释】

神经网络的训练本质上是最大似然估计 (MLE)。神经网络输出的不仅仅是一个预测值，而是给定输入 $x$ 时，目标变量 $y$ 的条件概率分布 $p(y\mid x, \theta)$ 的参数。损失函数的设计直接取决于我们对目标变量 $y$ 假设了哪种概率分布。

【标准答案 / 考点】

回归问题 (MSE = Gaussian Likelihood): 假设观测值包含高斯噪声，即 $y\mid x \sim \mathcal{N}(f_\theta(x), \sigma^2I)$。最大化该高斯分布的对数似然 (Log-Likelihood)，常数项忽略后，等价于最小化负对数似然 $\frac{1}{2\sigma^2} \lVert y - f_\theta(x)\rVert^2$，这正是均方误差 (MSE)。
分类问题 (Cross-Entropy = Categorical Likelihood): 目标 $y$ 是离散类别，假设 $y\mid x$ 服从伯努利分布 (二分类) 或多项分布 (多分类)。网络最后一层通过 Softmax 输出属于各类的概率 $p(y_c\mid x) = \hat{y}_c$。最大化多项分布的似然，等价于最小化负对数似然 $-\sum y_c \log(\hat{y}_c)$，这正是交叉熵损失。

主题 2: 变分自编码器 (Variational Autoencoders, VAE)

【自问】

VAE 的损失函数 (ELBO) 由哪两部分组成？它们各自起到了什么物理作用？为什么在训练 VAE 时必须引入「重参数化技巧」 (Reparameterization Trick)？

【概念解释】

标准自编码器 (Deterministic AE) 强行将输入映射为潜空间 (Latent Space) 的一个固定点，这会导致潜空间不连续（两点之间插值可能毫无意义）。VAE 改变了这一设定：Encoder 不再输出点，而是输出一个概率分布的参数（均值 $\mu$ 和方差 $\sigma^2$）。VAE 的目标是最大化数据的边缘似然 $p(x)$，但由于积分不可解，只能最大化其变分下界 (ELBO)。

【标准答案 / 考点】

ELBO 结构: $\mathcal{L}_{\mathrm{ELBO}} = \mathbb{E}_{q(z\mid x)}[\log p(x\mid z)] - D_{\mathrm{KL}}(q(z\mid x) \Vert p(z))$
1. 重构项 (Reconstruction Term, 第一项): 衡量 Decoder 从潜变量 $z$ 还原 $x$ 的能力（通常是 MSE 或二元交叉熵）。
2. 正则化项 (Regularization Term, 第二项): 计算后验 $q(z\mid x)$ 与标准正态先验 $p(z)$（通常是 $\mathcal{N}(0,I)$）的 KL 散度。它强制潜空间具有平滑的拓扑结构，防止不同的类簇在潜空间中产生断层。
重参数化技巧: 因为 $z \sim \mathcal{N}(\mu, \sigma^2)$ 是一个随机采样操作，梯度无法穿过随机节点反向传播给 Encoder。引入 $z = \mu + \sigma \odot \epsilon$（其中 $\epsilon \sim \mathcal{N}(0, I)$）。这样随机性被推到了 $\epsilon$ 上，梯度可以顺滑地沿确定性路径对 $\mu$ 和 $\sigma$ 求导。

主题 3: 扩散模型 (Diffusion Models)

【自问】

简述扩散模型的前向过程 (Forward) 和逆向过程 (Reverse)。在 DDPM (Denoising Diffusion Probabilistic Models) 中，神经网络在训练时实际上在预测什么？目标函数是什么形式？

【概念解释】

扩散模型是一种基于非平衡热力学的生成模型。它包含两个马尔可夫链 (Markov Chains)：前向链通过逐渐添加高斯噪声将数据分布「摧毁」成纯各向同性高斯噪声；逆向链则学习如何一步步去噪，从随机噪声中「雕刻」出数据分布。

【标准答案 / 考点】

前向过程 $q(x_t\mid x_{t-1})$: 是一个无需训练的固定过程。给定初始图像 $x_0$，随着时间步 $t$ 的增加，向数据中添加预先设定方差 ($\beta_t$) 的高斯噪声。
逆向过程 $p_\theta(x_{t-1}\mid x_t)$: 是神经网络需要学习的过程。理论上，只要每一步添加的噪声足够小，逆向过程也是一个高斯分布。
训练目标: 神经网络（通常是 U-Net 架构）并不是直接预测去噪后的原始图像 $x_0$，而是预测在步骤 $t$ 时刻被添加到图像中的那一项纯高斯噪声 $\epsilon$。（这在数学上等价于 Score Matching，即预测对数数据密度的梯度）。
简化版损失函数:

$$ \mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ \left\lVert \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t) \right\rVert^2 \right]. $$

（其中 $\epsilon_\theta$ 是网络的预测输出，输入是加噪后的图像和时间步 $t$）。

主题 4: 词向量、注意力机制与 Transformers

【自问】

与传统的静态词向量（如 Word2Vec）相比，Transformer 中的自注意力机制 (Self-Attention) 是如何解决「一词多义」问题的？简述 Query (Q), Key (K), Value (V) 的矩阵计算逻辑及其含义。

【概念解释】

Word2Vec（比如你们 Practice 里的 Skip-gram）为词汇表中的每个词分配一个固定的向量。这意味着 “bank”（银行）和 “bank”（河岸）在空间中永远是同一个向量，缺乏上下文感知。Transformer 放弃了静态表征，引入了动态上下文表征。序列中的每个词都会去「观察」句子中的其他所有词，并根据其他词的信息更新自己的向量表征。

【标准答案 / 考点】

一词多义的解决: 自注意力机制使得 “bank” 最终的向量表征是它自身与句子中所有其他词（如 “water”, “money”）特征向量的加权和。上下文不同，权重分布就不同，最终输出的向量就不同。
Q, K, V 机制: 对于输入序列矩阵 $X$，通过三个不同的权重矩阵映射出 $Q = XW_Q$, $K = XW_K$, $V = XW_V$。
- Query (Q - 查询): 类似搜索词，表示「当前词需要寻找什么上下文信息」。
- Key (K - 键): 类似标签，表示「当前词能提供什么特征」。
- Value (V - 值): 当前词实际包含的内容/信息。
计算公式 (Scaled Dot-Product Attention):

$$ \mathrm{Attention}(Q,K,V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

$QK^T$ 计算词与词之间的相关度得分矩阵（除以 $\sqrt{d_k}$ 是为了缩放，防止内积过大导致 Softmax 梯度消失）。Softmax 将得分转化为和为 1 的概率权重。最后乘上 $V$，实现信息的加权聚合。

主题 5: MCMC 采样方法对比 (MH vs. Gibbs vs. HMC)

【自问】

简述 Metropolis-Hastings (MH), Gibbs Sampling 和 Hamiltonian Monte Carlo (HMC) 在转移机制上的核心差异。

【考点/答案】

这三者都属于生成相依序列的马尔可夫链蒙特卡洛 (MCMC) 方法。

Metropolis-Hastings (MH): 提出一个状态 $x'$，通过接受率 $A(x'\mid x^{(t)}) = \min\left\{1, \dfrac{\tilde{p}(x')q(x^{(t)}\mid x')}{\tilde{p}(x^{(t)})q(x'\mid x^{(t)})}\right\}$ 来决定是否跳转。
Gibbs Sampling: 是 MH 的特例。它逐个坐标轴轮流采样，每次从给定其他变量的条件分布 $p(x_j \mid x_{-j}^{(t-1)})$ 中抽取新值。它的特点是无需拒绝，接受率永远为 1。
Hamiltonian Monte Carlo (HMC): 为了解决高维空间随机游走效率低的问题，引入了辅助的动量变量 (Momentum) $v \sim \mathcal{N}(0, I)$。利用 Leapfrog 积分器沿着目标分布的几何轨迹前进，使得模型可以在等高线（能量相近）上进行大步长跳转，且更倾向于停留在低能量（高概率）区域。

主题 1: 神经网络 (Neural Networks) 与似然函数的映射#

主题 2: 变分自编码器 (Variational Autoencoders, VAE)#

主题 3: 扩散模型 (Diffusion Models)#

主题 4: 词向量、注意力机制与 Transformers#

主题 5: MCMC 采样方法对比 (MH vs. Gibbs vs. HMC)#

主题 1: 神经网络 (Neural Networks) 与似然函数的映射

主题 2: 变分自编码器 (Variational Autoencoders, VAE)

主题 3: 扩散模型 (Diffusion Models)

主题 4: 词向量、注意力机制与 Transformers

主题 5: MCMC 采样方法对比 (MH vs. Gibbs vs. HMC)