流模型 Appendix

首次发布: 2025-10-14

... 次访问

Course Notes

Theory

/

AI Basics

附录

A. 一些定理#

A.1 Liouville 方程#

连续性方程

连续性方程是概率质量守恒的微分形式，描述了概率密度函数随时间的变化。设 $p_t(x)$ 是在时间 $t$ 时刻位置 $x$ 处的概率密度， $u_t(x)$ 是位置 $x$ 处的速度场，则连续性方程为

\boxed{ \frac{\partial p_t(x)}{\partial t} + \nabla \cdot J_t(x) = 0 }

其中 $J_t(x) = u_t(x) p_t(x)$ 是概率流函数。连续性方程也就是 Liouville 方程。

推导

设 $V$ 是空间中的一个体积区域， $\partial V$ 是其边界。 $P_V(t) = \int_V p_t(x) dx$ 是该体积区域内的概率质量。根据概率质量守恒 (流出的是负的流入的)，有

\frac{d}{dt} P_V(t) = -\int_{\partial V} J_t(x)^\top n \, dS

其中 $n$ 是边界的外侧法向量，代入

\frac{d}{dt} P_V(t) = \frac{d}{dt} \int_V p_t(x) dx

和散度定理

\int_{\partial V} J_t(x)^\top n \, dS = \int_V \nabla \cdot J_t(x) \, dx

得到

\frac{d}{dt} \int_V p_t(x) dx = -\int_V \nabla \cdot J_t(x) \, dx

交换微分和积分 (假设 $p_t(x)$ 足够光滑)，有

\int_V \frac{\partial p_t(x)}{\partial t} dx = -\int_V \nabla \cdot J_t(x) \, dx

由于 $V$ 是任意的，得到 Liouville 方程

\frac{\partial p_t(x)}{\partial t} + \nabla \cdot (u_t(x) p_t(x)) = 0

性质

偏微分方程解的唯一性：当 $u_t(x)$ 和初值条件 $p_0(x)$ 是确定的时候，方程的解 $p_t(x)$ 是唯一的。
$p_t(x)$ 确定， $u_t(x)$ 不唯一：给定一族中间分布 $\{p_t(x)\}_{t\in[0,1]}$ ，可以有无数个不同的速度场 $u_t(x)$ 满足 Liouville 方程。因为方程只给出了速度场的散度约束，而没有给出完整的速度场信息。

A.2 边缘性定理#

定理内容

边缘性定理 (Marginalization Theorem) 的数学形式为

\boxed{ u^{target}(x_t, t) = \int u^{target}(x_t, t | z) p(z | x_t) dz = \mathbb{E}_{z \sim p(z | x_t)}\left[u^{target}(x_t, t | z)\right] }

它表明边缘速度场 $u^{target}(x_t, t)$ 可以通过条件速度场 $u^{target}(x_t, t | z)$ 的加权平均来表示。

推导

(i) 边缘分布与 Liouville 方程

设 $z \sim p_{data}(z)$ 是一个真实样本，根据

p_t(x_t) = \int p_t(x_t | z)p_{data}(z)dz

对时间 $t$ 求偏导 (这里假设 $p_t(x_t | z)$ 连续可导)，得到

\frac{\partial p_t(x_t)}{\partial t} = \int \frac{\partial p_t(x_t | z)}{\partial t} p_{data}(z) dz

将条件分布的 Liouville 方程

\frac{\partial p_t(x_t | z)}{\partial t} + \nabla_x \cdot \left[p_t(x_t | z) u^{target}(x_t, t | z)\right] = 0

和边缘分布的 Liouville 方程

\frac{\partial p_t(x_t)}{\partial t} + \nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = 0

代入到上式中，得到

-\nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = \int -\nabla_x \cdot \left[p_t(x_t | z) u^{target}(x_t, t | z)\right] p_{data}(z) dz

(ii) 交换 $\int_z$ 与 $\nabla_x\cdot$

由于是对 $z$ 求积分而对 $x$ 取散度，且假设 $p_t(x_t|z)$ 与 $u^{target}(x_t,t|z)$ 对 $x_t$ 连续可导，根据 Leibniz 积分微分交换定理，可以交换积分与散度算子

\nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = \nabla_x \cdot \int p_t(x_t | z) u^{target}(x_t, t | z) p_{data}(z) dz

现在，得到了散度相同的等式。

(iii) 去掉 $\nabla_x \cdot$

令

A(x) = p_t(x) u^{target}(x, t)

B(x) = \int p_t(x | z) u^{target}(x, t | z) p_{data}(z) dz

现在形式转换为

\nabla_x \cdot A(x) = \nabla_x \cdot B(x)

根据 Helmholtz 分解定理，任何足够光滑且衰减足够快的向量场都可以唯一地分解为无旋场（梯度场）和无散场之和。因为 $\nabla \cdot A(x) = \nabla \cdot B(x)$ ，所以它们的差 $A(x) - B(x)$ 是一个无散场，即

A(x) = B(x) + \nabla \times F(x) + C

其中 $\nabla \times F(x)$ 是无散场， $C$ 是常数场。

假设

边界条件：当 $\|x\| \to \infty$ 时， $p_t(x) \to 0$ ，且 $u^{target}(x, t)$ 有界。
概率流的物理意义： $p_t(x)u^{target}(x, t)$ 表示概率流密度，在无穷远处应为零。

在这些假设下，由于 $p_t(x) \to 0$ ，我们有 $A(x) \to 0$ ， $B(x) \to 0$ ，当 $\|x\| \to \infty$ 。因此常数项 $C = 0$ 。对于无散项 $\nabla \times F(x)$ ，如果它在无穷远处不为零，会导致非零的概率流穿过无穷远边界，这违反概率守恒。因此 $\nabla \times F(x) = 0$ 。

于是我们得到

A(x) = B(x)

即

p_t(x_t) u^{target}(x_t, t) = \int p_t(x_t | z) u^{target}(x_t, t | z) p_{data}(z) dz

(iv) 贝叶斯定理

由贝叶斯定理，得到

u^{target}(x_t, t) = \int u^{target}(x_t, t | z) p(z | x_t) dz = \mathbb{E}_{z \sim p(z | x_t)}\left[u^{target}(x_t, t | z)\right]

A.3 概率流等价定理#

定理内容

设 $\{p_t(x)\}_{t\in[0, 1]}$ 是一族连续可微的概率分布，且 $p_0(x) = p_{prior}(x)$ ， $p_1(x) = p_{data}(x)$ 。假设存在一个光滑的速度场 $u_t(x)$ 满足 Liouville 方程

\frac{\partial p_t(x)}{\partial t} + \nabla_x \cdot \left[p_t(x) u_t(x)\right] = 0

其中，速度场对应有一个常微分方程 (ODE)

\boxed{ \frac{dX_t}{dt} = u_t(X_t), \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

则存在一个随机微分方程 (SDE)

\boxed{ dX_t = \left[u_t(X_t) + \frac{\sigma_t^2}{2}\nabla_{X_t} \log p_t(X_t)\right]dt + \sigma_t dW_t, \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

其边缘分布 $\{p_t(x)\}_{t\in[0, 1]}$ 与 Liouville 方程给出的一致。

证明

(i) 符号表示

设 $x_t$ 满足服从概率路径 $\{p_t(x_t)\}_{t\in[0, 1]}$ ，假设同时有 ODE

\frac{dx_t}{dt} = u_t(x_t), \quad x_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

和 SDE

dx_t = v_t(x_t)dt + \sigma_t dW_t, \quad x_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

对应这条概率路径。

(ii) Liouville 方程与 Fokker-Planck 方程联立

根据 Liouville 方程和 Fokker-Planck 方程，分别有

\frac{\partial p_t(x)}{\partial t} = -\nabla_x \cdot \left[p_t(x) u_t(x)\right]

\frac{\partial p_t(x)}{\partial t} = -\nabla_x \cdot \left[p_t(x) v_t(x)\right] + \frac{1}{2}\nabla_x^2 : (\sigma_t\sigma_t^\top p_t(x))

其中 $\nabla_x^2 :\ \ = \sum_{i=1}^{d}\sum_{j=1}^{d} \frac{\partial^2}{\partial x_i \partial x_j}$ 表示对矩阵的双重散度操作, $D_t = \sigma_t\sigma_t^\top \in \mathbb{R}^{d \times d}$ 是扩散张量。联立方程，得到

\nabla_x \cdot \left[p_t(x) u_t(x)\right] = \nabla_x \cdot \left[p_t(x) v_t(x)\right] - \frac{1}{2}\nabla_x^2 : (D_t p_t(x))

整理得到

\nabla_x \cdot \left[p_t(x) (u_t(x) - v_t(x))\right] = - \frac{1}{2}\nabla_x^2 : (D_t p_t(x))

(iii) 计算 $\nabla_x^2 : (D_t p_t(x))$

展开

\nabla_x^2 : (D_t p_t(x))

得到

\nabla_x^2 : (D_t p_t(x)) = \nabla_x \cdot \left[\nabla_x \cdot \left(D_t p_t(x)\right)\right] = \nabla_x \cdot \left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

其中，矩阵的一阶散度

\nabla_x\cdot (D_t p_t(x)) = \begin{bmatrix} \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{i1}, & \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{i2}, & \cdots, & \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{id}\end{bmatrix}^\top

是一个 $d$ 维列向量。推导中用到了矩阵数乘形式的散度展开公式 $\nabla \cdot \left(Ap\right) = (\nabla \cdot A) p + A \nabla p$ 。

(iv) 代入并取特殊情况

将上式代入，得到

\nabla_x \cdot \left[p_t(x) (u_t(x) - v_t(x))\right] = - \frac{1}{2}\nabla_x \cdot \left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

很显然，当我们直接取

p_t(x) (u_t(x) - v_t(x)) = - \frac{1}{2}\left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

时，上面的散度等式成立。由此化简，得到

\boxed{ v_t(x) = u_t(x) + \frac{1}{2}\nabla_x \cdot D_t + \frac{1}{2}D_t\nabla_x \log p_t(x) }

如果 $D_t$ 是关于 $x$ 的变量，则 $\nabla_x \cdot D_t$ 是一个 $d$ 维列向量。否则， $\nabla_x \cdot D_t = 0$ ，也即

\boxed{ v_t(x) = u_t(x) + \frac{1}{2}D_t\nabla_x \log p_t(x) }

这是更常见的一种形式。特别地，当 $D_t = \sigma_t^2 I_d$ 时，得到

\boxed{ v_t(x) = u_t(x) + \frac{\sigma_t^2}{2}\nabla_x \log p_t(x) }

另一种表达形式

概率流等价定理还有另一种公式形式。设有 SDE

dX_t = u_t(X_t)dt + \sigma_t dW_t, \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

其等价的 ODE 为

\boxed{ \frac{dX_t}{dt} = u_t(X_t) - \frac{\sigma_t^2}{2}\nabla_{X_t} \log p_t(X_t), \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

B. 伊藤积分#

B.1 定义#

伊藤积分是对随机过程进行的积分，定义为

\int_0^t X_s dW_s = \lim_{\Vert \Delta \Vert \to 0} \sum_{i=0}^{n-1} X_{t_i} (W_{t_{i+1}} - W_{t_i})

其中 $X_s$ 是一个适应过程 (即 $X_s$ 的值仅仅依赖于 $W_s$ 在时间 $s$ 之前的值)， $W_s$ 则是标准的维纳过程。

伊藤积分不是普通的黎曼积分或勒贝格积分，因为布朗运动 $W_t$ 的路径几乎处处不可微，且具有无限变差，因此需要特殊的构造方法。

B.2 性质#

零均值: 因为维纳过程的增量是独立的，且均值为零，因此伊藤积分的期望值为零。
$\mathbb{E}\left[\int_0^t X_s dW_s\right] = 0$
伊藤等距: 可用于计算方差。

\mathbb{E}\left[(\int_0^t X_s dW_s)^2\right] = \mathbb{E}\left[\int_0^t X_s^2 ds\right]

B.3 伊藤公式#

设 $X_t$ 是一个伊藤过程，即满足以下 SDE 方程

dX_t = \mu_t dt + \sigma_t dW_t

其中 $\mu_t$ 是漂移项， $\sigma_t$ 是扩散系数， $W_t$ 是标准维纳过程。

若 $f(t, X_t)$ 是一个关于 $t$ 和 $X_t$ 的二次可微函数，则

df(X_t, t) = \frac{\partial f}{\partial t}dt + \frac{\partial f}{\partial X_t}dX_t + \underbrace{\frac{1}{2} \frac{\partial^2 f}{\partial x^2} d(X_t)^2}_{\text{二阶项}}

根据维纳过程的性质，有

d(X_t)^2 = (\mu_t dt + \sigma_t dW_t)^2 = \sigma_t^2 dt

这是因为

$dW_t^2 = dt$ ，即维纳过程的增量平方等于时间增量。
$dW_t dt = 0$ ，即维纳过程的增量与时间增量的乘积为零。
$dW_t^2 = 0$

因此，最终的伊藤公式为

\boxed{df(X_t, t) = \left(\frac{\partial f}{\partial t} + \mu_t \frac{\partial f}{\partial X_t} + \frac{1}{2} \sigma_t^2 \frac{\partial^2 f}{\partial X_t^2}\right) dt + \sigma_t \frac{\partial f}{\partial X_t} dW_t}

B.4 伊藤公式的例子#

B.4.1 计算 $I_t = \int_0^t e^{-\theta(t - s)} dW_s$ 的微分#

设 $I_t = \int_0^t e^{-\theta(t - s)} dW_s$ ，我们想要计算 $dI_t$ 。

首先，我们可以将 $I_t$ 重写为

I_t = e^{-\theta t} \int_0^t e^{\theta s} dW_s

设 $f(t, Y_t) = e^{-\theta t} Y_t$ ，其中 $Y_t = \int_0^t e^{\theta s} dW_s$ 。

根据伊藤积分的性质， $Y_t$ 满足

dY_t = e^{\theta t} dW_t

现在应用伊藤公式到 $f(t, Y_t) = e^{-\theta t} Y_t$

\frac{\partial f}{\partial t} = -\theta e^{-\theta t} Y_t, \quad \frac{\partial f}{\partial Y_t} = e^{-\theta t}, \quad \frac{\partial^2 f}{\partial Y_t^2} = 0

由于 $dY_t = e^{\theta t} dW_t$ ，我们有 $\mu_t = 0$ ， $\sigma_t = e^{\theta t}$ 。

应用伊藤公式

dI_t = df(t, Y_t) = \frac{\partial f}{\partial t} dt + \frac{\partial f}{\partial Y_t} dY_t

= -\theta e^{-\theta t} Y_t dt + e^{-\theta t} \cdot e^{\theta t} dW_t

= -\theta e^{-\theta t} \int_0^t e^{\theta s} dW_s \, dt + dW_t

因此

\boxed{dI_t = -\theta I_t dt + dW_t}

这表明 $I_t$ 本身也满足一个简单的 SDE，这是 OU 过程积分项的一个重要性质。

C. 方程求解过程#

C.1 条件速度场的解析形式#

我们直接从已知方程出发

\frac{(x_t-\mu_t(z))^\top \dot{\mu_t}(z)}{\sigma_t^2} + \frac{\|x_t-\mu_t(z)\|^2 \dot{\sigma_t}}{\sigma_t^3} - \frac{\dot{\sigma_t} d}{\sigma_t} = \frac{(x_t-\mu_t(z))^\top u^{target}(x_t, t|z)}{\sigma_t^2} - \nabla_{x_t} \cdot u^{target}(x_t, t|z)

齐次方程分析

考虑对应的齐次方程

\frac{(x_t-\mu_t(z))^\top}{\sigma_t^2}u_h - \nabla_{x_t} \cdot u_h = 0

令 $y = x_t - \mu_t(z)$ ，方程变为

\frac{y^\top}{\sigma_t^2}u_h(y) - \nabla_y \cdot u_h(y) = 0

在加权 Sobolev 空间 $L^2(\mathbb{R}^d, p_t(y)dy)$ 中分析，其中 $p_t(y) = \frac{1}{(2\pi\sigma_t^2)^{d/2}} \exp\left(-\frac{\|y\|^2}{2\sigma_t^2}\right)$ 。

正交分解论证

将 $u_h(y)$ 分解为径向部分和切向部分

u_h(y) = u_h^{\parallel}(y) + u_h^{\perp}(y)

其中 $u_h^{\parallel}(y)$ 与 $y$ 平行， $u_h^{\perp}(y)$ 与 $y$ 垂直。

径向部分分析

设 $u_h^{\parallel}(y) = f(\|y\|) \frac{y}{\|y\|}$ ，代入齐次方程

第一项

\frac{y^\top}{\sigma_t^2} u_h^{\parallel} = \frac{\|y\| f(\|y\|)}{\sigma_t^2}

散度项

\nabla_y \cdot u_h^{\parallel} = \nabla_y \cdot \left(f(\|y\|) \frac{y}{\|y\|}\right) = f'(\|y\|) + \frac{d-1}{\|y\|} f(\|y\|)

齐次方程变为

\frac{\|y\| f(\|y\|)}{\sigma_t^2} - \left[f'(\|y\|) + \frac{d-1}{\|y\|} f(\|y\|)\right] = 0

整理得

f'(\|y\|) + \left[\frac{d-1}{\|y\|} - \frac{\|y\|}{\sigma_t^2}\right] f(\|y\|) = 0

解此一阶线性ODE，得到

f(\|y\|) = C \|y\|^{1-d} \exp\left(\frac{\|y\|^2}{2\sigma_t^2}\right)

但在 $L^2(\mathbb{R}^d, p_t(y)dy)$ 空间中，该解不满足可积性条件

\int_{\mathbb{R}^d} |u_h^{\parallel}(y)|^2 p_t(y) dy \propto \int_0^\infty \|y\|^{2-2d} \exp\left(\frac{\|y\|^2}{\sigma_t^2}\right) \exp\left(-\frac{\|y\|^2}{2\sigma_t^2}\right) \|y\|^{d-1} d\|y\|

因此 $f(\|y\|) \equiv 0$ ，即 $u_h^{\parallel}(y) \equiv 0$ 。

切向部分分析

现在考虑 $u_h^{\perp}(y)$ ，满足 $y^\top u_h^{\perp}(y) = 0$ 。

齐次方程简化为

- \nabla_y \cdot u_h^{\perp}(y) = 0

考虑任意光滑紧支撑标量函数 $\phi(y)$ ，由散度定理

\int_{\mathbb{R}^d} \phi(y) \nabla_y \cdot u_h^{\perp}(y) dy = - \int_{\mathbb{R}^d} \nabla_y \phi(y) \cdot u_h^{\perp}(y) dy = 0

这意味着 $u_h^{\perp}$ 在分布意义下无散度。但在 $L^2(\mathbb{R}^d, p_t(y)dy)$ 空间中，满足 $y^\top u_h^{\perp} = 0$ 且 $\nabla_y \cdot u_h^{\perp} = 0$ 的非零向量场必须具有特定的调和形式。通过傅里叶分析或考虑加权空间中的Hodge分解，可以证明在合理的边界条件下（在无穷远处衰减足够快），唯一的解是 $u_h^{\perp}(y) \equiv 0$ 。

唯一性结论

因此，在加权 $L^2$ 空间中，齐次方程只有零解。根据线性微分方程理论，原非齐次方程如果有解，则解是唯一的。

构造特解

既然解唯一，我们通过待定系数法构造特解。假设解具有形式

u^{target}(x_t, t|z) = A(t)(x_t - \mu_t(z)) + b(t)

计算散度项

\nabla_{x_t} \cdot u^{target} = A(t)d

代入方程左边

\frac{A(t)\|x_t-\mu_t(z)\|^2}{\sigma_t^2} + \frac{(x_t-\mu_t(z))^\top b(t)}{\sigma_t^2} - A(t)d

与右边比较系数

$\|x_t-\mu_t(z)\|^2$ 系数： $\frac{A(t)}{\sigma_t^2} = \frac{\dot{\sigma_t}}{\sigma_t^3} \Rightarrow A(t) = \frac{\dot{\sigma_t}}{\sigma_t}$
$(x_t-\mu_t(z))$ 系数： $\frac{b(t)}{\sigma_t^2} = \frac{\dot{\mu_t}(z)}{\sigma_t^2} \Rightarrow b(t) = \dot{\mu_t}(z)$
常数项验证： $-A(t)d = -\frac{\dot{\sigma_t} d}{\sigma_t}$ 成立

因此得到唯一解

u^{target}(x_t, t|z) = \frac{\dot{\sigma_t}}{\sigma_t}(x_t - \mu_t(z)) + \dot{\mu_t}(z)

C.2 Langevin 动力学的稳态分布#

直接从稳态 Fokker-Planck 方程开始

\nabla_x \cdot \left[p_{ss}(x) \nabla_x U(x)\right] + kT \Delta_x p_{ss}(x) = 0

我们可以将其重写为

\nabla_x \cdot \left[p_{ss}(x) \nabla_x U(x) + kT \nabla_x p_{ss}(x)\right] = 0

这表明括号内的概率流向量场 $J(x)$ 是无散度的。在热力学平衡状态下，我们有更强的条件，即细致平衡 (detailed balance)，这意味着净概率流在每一点都为零

J(x) = p_{ss}(x) \nabla_x U(x) + kT \nabla_x p_{ss}(x) = 0

整理上式，得到

kT \nabla_x p_{ss}(x) = -p_{ss}(x) \nabla_x U(x)

\frac{\nabla_x p_{ss}(x)}{p_{ss}(x)} = -\frac{1}{kT} \nabla_x U(x)

利用 $\nabla_x \log f(x) = \frac{\nabla_x f(x)}{f(x)}$ ，我们有

\nabla_x \log p_{ss}(x) = -\frac{1}{kT} \nabla_x U(x)

对 $x$ 积分，得到

\log p_{ss}(x) = -\frac{U(x)}{kT} + C'

其中 $C'$ 是积分常数。两边取指数，得到

p_{ss}(x) = e^{C'} e^{-\frac{U(x)}{kT}}

这是一个未归一化的概率分布。为了使其成为一个有效的概率密度函数，我们需要对其进行归一化，即 $\int p_{ss}(x) dx = 1$ 。

\int e^{C'} e^{-\frac{U(x)}{kT}} dx = 1 \implies e^{C'} = \frac{1}{\int e^{-\frac{U(x)}{kT}} dx}

令配分函数 $Z = \int e^{-\frac{U(x)}{kT}} dx$ ，则 $e^{C'} = \frac{1}{Z}$ 。

因此，Langevin 动力学的稳态分布是玻尔兹曼分布

\boxed{ p_{ss}(x) = \frac{1}{Z} e^{-\frac{U(x)}{kT}} }