3071 words
15 minutes
流模型 Appendix
首次发布: 2025-10-14
... 次访问

附录

A. 一些定理#

A.1 Liouville 方程#

连续性方程

连续性方程是概率质量守恒的微分形式,描述了概率密度函数随时间的变化。设 pt(x)p_t(x) 是在时间 tt 时刻位置 xx 处的概率密度,ut(x)u_t(x) 是位置 xx 处的速度场,则连续性方程为

pt(x)t+Jt(x)=0\boxed{ \frac{\partial p_t(x)}{\partial t} + \nabla \cdot J_t(x) = 0 }

其中 Jt(x)=ut(x)pt(x)J_t(x) = u_t(x) p_t(x) 是概率流函数。连续性方程也就是 Liouville 方程。

推导

VV 是空间中的一个体积区域,V\partial V 是其边界。PV(t)=Vpt(x)dxP_V(t) = \int_V p_t(x) dx 是该体积区域内的概率质量。根据概率质量守恒 (流出的是负的流入的),有

ddtPV(t)=VJt(x)ndS\frac{d}{dt} P_V(t) = -\int_{\partial V} J_t(x)^\top n \, dS

其中 nn 是边界的外侧法向量,代入

ddtPV(t)=ddtVpt(x)dx\frac{d}{dt} P_V(t) = \frac{d}{dt} \int_V p_t(x) dx

和散度定理

VJt(x)ndS=VJt(x)dx\int_{\partial V} J_t(x)^\top n \, dS = \int_V \nabla \cdot J_t(x) \, dx

得到

ddtVpt(x)dx=VJt(x)dx\frac{d}{dt} \int_V p_t(x) dx = -\int_V \nabla \cdot J_t(x) \, dx

交换微分和积分 (假设 pt(x)p_t(x) 足够光滑),有

Vpt(x)tdx=VJt(x)dx\int_V \frac{\partial p_t(x)}{\partial t} dx = -\int_V \nabla \cdot J_t(x) \, dx

由于 VV 是任意的,得到 Liouville 方程

pt(x)t+(ut(x)pt(x))=0\frac{\partial p_t(x)}{\partial t} + \nabla \cdot (u_t(x) p_t(x)) = 0

性质

  • 偏微分方程解的唯一性:当 ut(x)u_t(x) 和初值条件 p0(x)p_0(x) 是确定的时候,方程的解 pt(x)p_t(x) 是唯一的。
  • pt(x)p_t(x) 确定,ut(x)u_t(x) 不唯一:给定一族中间分布 {pt(x)}t[0,1]\{p_t(x)\}_{t\in[0,1]},可以有无数个不同的速度场 ut(x)u_t(x) 满足 Liouville 方程。因为方程只给出了速度场的散度约束,而没有给出完整的速度场信息。

A.2 边缘性定理#

定理内容

边缘性定理 (Marginalization Theorem) 的数学形式为

utarget(xt,t)=utarget(xt,tz)p(zxt)dz=Ezp(zxt)[utarget(xt,tz)]\boxed{ u^{target}(x_t, t) = \int u^{target}(x_t, t | z) p(z | x_t) dz = \mathbb{E}_{z \sim p(z | x_t)}\left[u^{target}(x_t, t | z)\right] }

它表明边缘速度场 utarget(xt,t)u^{target}(x_t, t) 可以通过条件速度场 utarget(xt,tz)u^{target}(x_t, t | z) 的加权平均来表示。

推导

(i) 边缘分布与 Liouville 方程

zpdata(z)z \sim p_{data}(z) 是一个真实样本,根据

pt(xt)=pt(xtz)pdata(z)dzp_t(x_t) = \int p_t(x_t | z)p_{data}(z)dz

对时间 tt 求偏导 (这里假设 pt(xtz)p_t(x_t | z) 连续可导),得到

pt(xt)t=pt(xtz)tpdata(z)dz\frac{\partial p_t(x_t)}{\partial t} = \int \frac{\partial p_t(x_t | z)}{\partial t} p_{data}(z) dz

将条件分布的 Liouville 方程

pt(xtz)t+x[pt(xtz)utarget(xt,tz)]=0\frac{\partial p_t(x_t | z)}{\partial t} + \nabla_x \cdot \left[p_t(x_t | z) u^{target}(x_t, t | z)\right] = 0

和边缘分布的 Liouville 方程

pt(xt)t+x[pt(xt)utarget(xt,t)]=0\frac{\partial p_t(x_t)}{\partial t} + \nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = 0

代入到上式中,得到

x[pt(xt)utarget(xt,t)]=x[pt(xtz)utarget(xt,tz)]pdata(z)dz-\nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = \int -\nabla_x \cdot \left[p_t(x_t | z) u^{target}(x_t, t | z)\right] p_{data}(z) dz

(ii) 交换 z\int_z x\nabla_x\cdot

由于是对 zz 求积分而对 xx 取散度,且假设 pt(xtz)p_t(x_t|z)utarget(xt,tz)u^{target}(x_t,t|z)xtx_t 连续可导,根据 Leibniz 积分微分交换定理,可以交换积分与散度算子

x[pt(xt)utarget(xt,t)]=xpt(xtz)utarget(xt,tz)pdata(z)dz\nabla_x \cdot \left[p_t(x_t) u^{target}(x_t, t)\right] = \nabla_x \cdot \int p_t(x_t | z) u^{target}(x_t, t | z) p_{data}(z) dz

现在,得到了散度相同的等式。

(iii) 去掉 x\nabla_x \cdot

A(x)=pt(x)utarget(x,t)A(x) = p_t(x) u^{target}(x, t)B(x)=pt(xz)utarget(x,tz)pdata(z)dzB(x) = \int p_t(x | z) u^{target}(x, t | z) p_{data}(z) dz

现在形式转换为

xA(x)=xB(x)\nabla_x \cdot A(x) = \nabla_x \cdot B(x)

根据 Helmholtz 分解定理,任何足够光滑且衰减足够快的向量场都可以唯一地分解为无旋场(梯度场)和无散场之和。因为 A(x)=B(x)\nabla \cdot A(x) = \nabla \cdot B(x),所以它们的差 A(x)B(x)A(x) - B(x) 是一个无散场,即

A(x)=B(x)+×F(x)+CA(x) = B(x) + \nabla \times F(x) + C

其中 ×F(x)\nabla \times F(x) 是无散场,CC 是常数场。

假设

  1. 边界条件:当 x\|x\| \to \infty 时,pt(x)0p_t(x) \to 0,且 utarget(x,t)u^{target}(x, t) 有界。
  2. 概率流的物理意义:pt(x)utarget(x,t)p_t(x)u^{target}(x, t) 表示概率流密度,在无穷远处应为零。

在这些假设下,由于 pt(x)0p_t(x) \to 0,我们有 A(x)0A(x) \to 0B(x)0B(x) \to 0,当 x\|x\| \to \infty。因此常数项 C=0C = 0。对于无散项 ×F(x)\nabla \times F(x),如果它在无穷远处不为零,会导致非零的概率流穿过无穷远边界,这违反概率守恒。因此 ×F(x)=0\nabla \times F(x) = 0

于是我们得到

A(x)=B(x)A(x) = B(x)

pt(xt)utarget(xt,t)=pt(xtz)utarget(xt,tz)pdata(z)dzp_t(x_t) u^{target}(x_t, t) = \int p_t(x_t | z) u^{target}(x_t, t | z) p_{data}(z) dz

(iv) 贝叶斯定理

由贝叶斯定理,得到

utarget(xt,t)=utarget(xt,tz)p(zxt)dz=Ezp(zxt)[utarget(xt,tz)]u^{target}(x_t, t) = \int u^{target}(x_t, t | z) p(z | x_t) dz = \mathbb{E}_{z \sim p(z | x_t)}\left[u^{target}(x_t, t | z)\right]

A.3 概率流等价定理#

定理内容

{pt(x)}t[0,1]\{p_t(x)\}_{t\in[0, 1]} 是一族连续可微的概率分布,且 p0(x)=pprior(x)p_0(x) = p_{prior}(x)p1(x)=pdata(x)p_1(x) = p_{data}(x)。假设存在一个光滑的速度场 ut(x)u_t(x) 满足 Liouville 方程

pt(x)t+x[pt(x)ut(x)]=0\frac{\partial p_t(x)}{\partial t} + \nabla_x \cdot \left[p_t(x) u_t(x)\right] = 0

其中,速度场对应有一个常微分方程 (ODE)

dXtdt=ut(Xt),X0pprior(x0),t[0,1]\boxed{ \frac{dX_t}{dt} = u_t(X_t), \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

则存在一个随机微分方程 (SDE)

dXt=[ut(Xt)+σt22Xtlogpt(Xt)]dt+σtdWt,X0pprior(x0),t[0,1]\boxed{ dX_t = \left[u_t(X_t) + \frac{\sigma_t^2}{2}\nabla_{X_t} \log p_t(X_t)\right]dt + \sigma_t dW_t, \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

其边缘分布 {pt(x)}t[0,1]\{p_t(x)\}_{t\in[0, 1]} 与 Liouville 方程给出的一致。

证明

(i) 符号表示

xtx_t 满足服从概率路径 {pt(xt)}t[0,1]\{p_t(x_t)\}_{t\in[0, 1]},假设同时有 ODE

dxtdt=ut(xt),x0pprior(x0),t[0,1]\frac{dx_t}{dt} = u_t(x_t), \quad x_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

和 SDE

dxt=vt(xt)dt+σtdWt,x0pprior(x0),t[0,1]dx_t = v_t(x_t)dt + \sigma_t dW_t, \quad x_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

对应这条概率路径。

(ii) Liouville 方程与 Fokker-Planck 方程联立

根据 Liouville 方程 和 Fokker-Planck 方程,分别有

pt(x)t=x[pt(x)ut(x)]\frac{\partial p_t(x)}{\partial t} = -\nabla_x \cdot \left[p_t(x) u_t(x)\right]pt(x)t=x[pt(x)vt(x)]+12x2:(σtσtpt(x))\frac{\partial p_t(x)}{\partial t} = -\nabla_x \cdot \left[p_t(x) v_t(x)\right] + \frac{1}{2}\nabla_x^2 : (\sigma_t\sigma_t^\top p_t(x))

其中 x2:  =i=1dj=1d2xixj\nabla_x^2 :\ \ = \sum_{i=1}^{d}\sum_{j=1}^{d} \frac{\partial^2}{\partial x_i \partial x_j} 表示对矩阵的双重散度操作, Dt=σtσtRd×dD_t = \sigma_t\sigma_t^\top \in \mathbb{R}^{d \times d} 是扩散张量。联立方程,得到

x[pt(x)ut(x)]=x[pt(x)vt(x)]12x2:(Dtpt(x))\nabla_x \cdot \left[p_t(x) u_t(x)\right] = \nabla_x \cdot \left[p_t(x) v_t(x)\right] - \frac{1}{2}\nabla_x^2 : (D_t p_t(x))

整理得到

x[pt(x)(ut(x)vt(x))]=12x2:(Dtpt(x))\nabla_x \cdot \left[p_t(x) (u_t(x) - v_t(x))\right] = - \frac{1}{2}\nabla_x^2 : (D_t p_t(x))

(iii) 计算 x2:(Dtpt(x))\nabla_x^2 : (D_t p_t(x))

展开

x2:(Dtpt(x))\nabla_x^2 : (D_t p_t(x))

得到

x2:(Dtpt(x))=x[x(Dtpt(x))]=x[(xDt)pt(x)+Dtxpt(x)]\nabla_x^2 : (D_t p_t(x)) = \nabla_x \cdot \left[\nabla_x \cdot \left(D_t p_t(x)\right)\right] = \nabla_x \cdot \left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

其中,矩阵的一阶散度

x(Dtpt(x))=[i=1dxiDi1,i=1dxiDi2,,i=1dxiDid]\nabla_x\cdot (D_t p_t(x)) = \begin{bmatrix} \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{i1}, & \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{i2}, & \cdots, & \sum_{i=1}^{d}\frac{\partial}{\partial x_i}D_{id}\end{bmatrix}^\top

是一个 dd 维列向量。推导中用到了矩阵数乘形式的散度展开公式 (Ap)=(A)p+Ap\nabla \cdot \left(Ap\right) = (\nabla \cdot A) p + A \nabla p

(iv) 代入并取特殊情况

将上式代入,得到

x[pt(x)(ut(x)vt(x))]=12x[(xDt)pt(x)+Dtxpt(x)]\nabla_x \cdot \left[p_t(x) (u_t(x) - v_t(x))\right] = - \frac{1}{2}\nabla_x \cdot \left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

很显然,当我们直接取

pt(x)(ut(x)vt(x))=12[(xDt)pt(x)+Dtxpt(x)]p_t(x) (u_t(x) - v_t(x)) = - \frac{1}{2}\left[\left(\nabla_x \cdot D_t\right) p_t(x) + D_t\nabla_x p_t(x)\right]

时,上面的散度等式成立。由此化简,得到

vt(x)=ut(x)+12xDt+12Dtxlogpt(x)\boxed{ v_t(x) = u_t(x) + \frac{1}{2}\nabla_x \cdot D_t + \frac{1}{2}D_t\nabla_x \log p_t(x) }

如果 DtD_t 是关于 xx 的变量,则 xDt\nabla_x \cdot D_t 是一个 dd 维列向量。否则,xDt=0\nabla_x \cdot D_t = 0,也即

vt(x)=ut(x)+12Dtxlogpt(x)\boxed{ v_t(x) = u_t(x) + \frac{1}{2}D_t\nabla_x \log p_t(x) }

这是更常见的一种形式。特别地,当 Dt=σt2IdD_t = \sigma_t^2 I_d 时,得到

vt(x)=ut(x)+σt22xlogpt(x)\boxed{ v_t(x) = u_t(x) + \frac{\sigma_t^2}{2}\nabla_x \log p_t(x) }

另一种表达形式

概率流等价定理还有另一种公式形式。设有 SDE

dXt=ut(Xt)dt+σtdWt,X0pprior(x0),t[0,1]dX_t = u_t(X_t)dt + \sigma_t dW_t, \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1]

其等价的 ODE 为

dXtdt=ut(Xt)σt22Xtlogpt(Xt),X0pprior(x0),t[0,1]\boxed{ \frac{dX_t}{dt} = u_t(X_t) - \frac{\sigma_t^2}{2}\nabla_{X_t} \log p_t(X_t), \quad X_0 \sim p_{prior}(x_0), \quad t \in [0, 1] }

B. 伊藤积分#

B.1 定义#

伊藤积分是对随机过程进行的积分,定义为

0tXsdWs=limΔ0i=0n1Xti(Wti+1Wti)\int_0^t X_s dW_s = \lim_{\Vert \Delta \Vert \to 0} \sum_{i=0}^{n-1} X_{t_i} (W_{t_{i+1}} - W_{t_i})

其中 XsX_s 是一个适应过程 (即 XsX_s 的值仅仅依赖于 WsW_s 在时间 ss 之前的值),WsW_s 则是标准的维纳过程。

伊藤积分不是普通的黎曼积分或勒贝格积分,因为布朗运动 WtW_t 的路径几乎处处不可微,且具有无限变差,因此需要特殊的构造方法。

B.2 性质#

  1. 零均值: 因为维纳过程的增量是独立的,且均值为零,因此伊藤积分的期望值为零。

    E[0tXsdWs]=0\mathbb{E}\left[\int_0^t X_s dW_s\right] = 0
  2. 伊藤等距: 可用于计算方差。

E[(0tXsdWs)2]=E[0tXs2ds]\mathbb{E}\left[(\int_0^t X_s dW_s)^2\right] = \mathbb{E}\left[\int_0^t X_s^2 ds\right]

B.3 伊藤公式#

XtX_t 是一个伊藤过程,即满足以下 SDE 方程

dXt=μtdt+σtdWtdX_t = \mu_t dt + \sigma_t dW_t

其中 μt\mu_t 是漂移项,σt\sigma_t 是扩散系数, WtW_t 是标准维纳过程。

f(t,Xt)f(t, X_t) 是一个关于 ttXtX_t 的二次可微函数,则

df(Xt,t)=ftdt+fXtdXt+122fx2d(Xt)2二阶项df(X_t, t) = \frac{\partial f}{\partial t}dt + \frac{\partial f}{\partial X_t}dX_t + \underbrace{\frac{1}{2} \frac{\partial^2 f}{\partial x^2} d(X_t)^2}_{\text{二阶项}}

根据维纳过程的性质,有

d(Xt)2=(μtdt+σtdWt)2=σt2dtd(X_t)^2 = (\mu_t dt + \sigma_t dW_t)^2 = \sigma_t^2 dt

这是因为

  • dWt2=dtdW_t^2 = dt,即维纳过程的增量平方等于时间增量。
  • dWtdt=0dW_t dt = 0,即维纳过程的增量与时间增量的乘积为零。
  • dWt2=0dW_t^2 = 0

因此,最终的伊藤公式为

df(Xt,t)=(ft+μtfXt+12σt22fXt2)dt+σtfXtdWt\boxed{df(X_t, t) = \left(\frac{\partial f}{\partial t} + \mu_t \frac{\partial f}{\partial X_t} + \frac{1}{2} \sigma_t^2 \frac{\partial^2 f}{\partial X_t^2}\right) dt + \sigma_t \frac{\partial f}{\partial X_t} dW_t}

B.4 伊藤公式的例子#

B.4.1 计算 It=0teθ(ts)dWsI_t = \int_0^t e^{-\theta(t - s)} dW_s 的微分#

It=0teθ(ts)dWsI_t = \int_0^t e^{-\theta(t - s)} dW_s,我们想要计算 dItdI_t

首先,我们可以将 ItI_t 重写为

It=eθt0teθsdWsI_t = e^{-\theta t} \int_0^t e^{\theta s} dW_s

f(t,Yt)=eθtYtf(t, Y_t) = e^{-\theta t} Y_t,其中 Yt=0teθsdWsY_t = \int_0^t e^{\theta s} dW_s

根据伊藤积分的性质,YtY_t 满足

dYt=eθtdWtdY_t = e^{\theta t} dW_t

现在应用伊藤公式到 f(t,Yt)=eθtYtf(t, Y_t) = e^{-\theta t} Y_t

ft=θeθtYt,fYt=eθt,2fYt2=0\frac{\partial f}{\partial t} = -\theta e^{-\theta t} Y_t, \quad \frac{\partial f}{\partial Y_t} = e^{-\theta t}, \quad \frac{\partial^2 f}{\partial Y_t^2} = 0

由于 dYt=eθtdWtdY_t = e^{\theta t} dW_t,我们有 μt=0\mu_t = 0σt=eθt\sigma_t = e^{\theta t}

应用伊藤公式

dIt=df(t,Yt)=ftdt+fYtdYtdI_t = df(t, Y_t) = \frac{\partial f}{\partial t} dt + \frac{\partial f}{\partial Y_t} dY_t=θeθtYtdt+eθteθtdWt= -\theta e^{-\theta t} Y_t dt + e^{-\theta t} \cdot e^{\theta t} dW_t=θeθt0teθsdWsdt+dWt= -\theta e^{-\theta t} \int_0^t e^{\theta s} dW_s \, dt + dW_t

因此

dIt=θItdt+dWt\boxed{dI_t = -\theta I_t dt + dW_t}

这表明 ItI_t 本身也满足一个简单的 SDE,这是 OU 过程积分项的一个重要性质。

C. 方程求解过程#

C.1 条件速度场的解析形式#

我们直接从已知方程出发

(xtμt(z))μt˙(z)σt2+xtμt(z)2σt˙σt3σt˙dσt=(xtμt(z))utarget(xt,tz)σt2xtutarget(xt,tz)\frac{(x_t-\mu_t(z))^\top \dot{\mu_t}(z)}{\sigma_t^2} + \frac{\|x_t-\mu_t(z)\|^2 \dot{\sigma_t}}{\sigma_t^3} - \frac{\dot{\sigma_t} d}{\sigma_t} = \frac{(x_t-\mu_t(z))^\top u^{target}(x_t, t|z)}{\sigma_t^2} - \nabla_{x_t} \cdot u^{target}(x_t, t|z)

齐次方程分析

考虑对应的齐次方程

(xtμt(z))σt2uhxtuh=0\frac{(x_t-\mu_t(z))^\top}{\sigma_t^2}u_h - \nabla_{x_t} \cdot u_h = 0

y=xtμt(z)y = x_t - \mu_t(z),方程变为

yσt2uh(y)yuh(y)=0\frac{y^\top}{\sigma_t^2}u_h(y) - \nabla_y \cdot u_h(y) = 0

在加权 Sobolev 空间 L2(Rd,pt(y)dy)L^2(\mathbb{R}^d, p_t(y)dy) 中分析,其中 pt(y)=1(2πσt2)d/2exp(y22σt2)p_t(y) = \frac{1}{(2\pi\sigma_t^2)^{d/2}} \exp\left(-\frac{\|y\|^2}{2\sigma_t^2}\right)

正交分解论证

uh(y)u_h(y) 分解为径向部分和切向部分

uh(y)=uh(y)+uh(y)u_h(y) = u_h^{\parallel}(y) + u_h^{\perp}(y)

其中 uh(y)u_h^{\parallel}(y)yy 平行,uh(y)u_h^{\perp}(y)yy 垂直。

径向部分分析

uh(y)=f(y)yyu_h^{\parallel}(y) = f(\|y\|) \frac{y}{\|y\|},代入齐次方程

第一项

yσt2uh=yf(y)σt2\frac{y^\top}{\sigma_t^2} u_h^{\parallel} = \frac{\|y\| f(\|y\|)}{\sigma_t^2}

散度项

yuh=y(f(y)yy)=f(y)+d1yf(y)\nabla_y \cdot u_h^{\parallel} = \nabla_y \cdot \left(f(\|y\|) \frac{y}{\|y\|}\right) = f'(\|y\|) + \frac{d-1}{\|y\|} f(\|y\|)

齐次方程变为

yf(y)σt2[f(y)+d1yf(y)]=0\frac{\|y\| f(\|y\|)}{\sigma_t^2} - \left[f'(\|y\|) + \frac{d-1}{\|y\|} f(\|y\|)\right] = 0

整理得

f(y)+[d1yyσt2]f(y)=0f'(\|y\|) + \left[\frac{d-1}{\|y\|} - \frac{\|y\|}{\sigma_t^2}\right] f(\|y\|) = 0

解此一阶线性ODE,得到

f(y)=Cy1dexp(y22σt2)f(\|y\|) = C \|y\|^{1-d} \exp\left(\frac{\|y\|^2}{2\sigma_t^2}\right)

但在 L2(Rd,pt(y)dy)L^2(\mathbb{R}^d, p_t(y)dy) 空间中,该解不满足可积性条件

Rduh(y)2pt(y)dy0y22dexp(y2σt2)exp(y22σt2)yd1dy\int_{\mathbb{R}^d} |u_h^{\parallel}(y)|^2 p_t(y) dy \propto \int_0^\infty \|y\|^{2-2d} \exp\left(\frac{\|y\|^2}{\sigma_t^2}\right) \exp\left(-\frac{\|y\|^2}{2\sigma_t^2}\right) \|y\|^{d-1} d\|y\|

因此 f(y)0f(\|y\|) \equiv 0,即 uh(y)0u_h^{\parallel}(y) \equiv 0

切向部分分析

现在考虑 uh(y)u_h^{\perp}(y),满足 yuh(y)=0y^\top u_h^{\perp}(y) = 0

齐次方程简化为

yuh(y)=0- \nabla_y \cdot u_h^{\perp}(y) = 0

考虑任意光滑紧支撑标量函数 ϕ(y)\phi(y),由散度定理

Rdϕ(y)yuh(y)dy=Rdyϕ(y)uh(y)dy=0\int_{\mathbb{R}^d} \phi(y) \nabla_y \cdot u_h^{\perp}(y) dy = - \int_{\mathbb{R}^d} \nabla_y \phi(y) \cdot u_h^{\perp}(y) dy = 0

这意味着 uhu_h^{\perp} 在分布意义下无散度。但在 L2(Rd,pt(y)dy)L^2(\mathbb{R}^d, p_t(y)dy) 空间中,满足 yuh=0y^\top u_h^{\perp} = 0yuh=0\nabla_y \cdot u_h^{\perp} = 0 的非零向量场必须具有特定的调和形式。通过傅里叶分析或考虑加权空间中的Hodge分解,可以证明在合理的边界条件下(在无穷远处衰减足够快),唯一的解是 uh(y)0u_h^{\perp}(y) \equiv 0

唯一性结论

因此,在加权 L2L^2 空间中,齐次方程只有零解。根据线性微分方程理论,原非齐次方程如果有解,则解是唯一的。

构造特解

既然解唯一,我们通过待定系数法构造特解。假设解具有形式

utarget(xt,tz)=A(t)(xtμt(z))+b(t)u^{target}(x_t, t|z) = A(t)(x_t - \mu_t(z)) + b(t)

计算散度项

xtutarget=A(t)d\nabla_{x_t} \cdot u^{target} = A(t)d

代入方程左边

A(t)xtμt(z)2σt2+(xtμt(z))b(t)σt2A(t)d\frac{A(t)\|x_t-\mu_t(z)\|^2}{\sigma_t^2} + \frac{(x_t-\mu_t(z))^\top b(t)}{\sigma_t^2} - A(t)d

与右边比较系数

  • xtμt(z)2\|x_t-\mu_t(z)\|^2 系数:A(t)σt2=σt˙σt3A(t)=σt˙σt\frac{A(t)}{\sigma_t^2} = \frac{\dot{\sigma_t}}{\sigma_t^3} \Rightarrow A(t) = \frac{\dot{\sigma_t}}{\sigma_t}
  • (xtμt(z))(x_t-\mu_t(z)) 系数:b(t)σt2=μt˙(z)σt2b(t)=μt˙(z)\frac{b(t)}{\sigma_t^2} = \frac{\dot{\mu_t}(z)}{\sigma_t^2} \Rightarrow b(t) = \dot{\mu_t}(z)
  • 常数项验证:A(t)d=σt˙dσt-A(t)d = -\frac{\dot{\sigma_t} d}{\sigma_t} 成立

因此得到唯一解

utarget(xt,tz)=σt˙σt(xtμt(z))+μt˙(z)u^{target}(x_t, t|z) = \frac{\dot{\sigma_t}}{\sigma_t}(x_t - \mu_t(z)) + \dot{\mu_t}(z)

C.2 Langevin 动力学的稳态分布#

直接从稳态 Fokker-Planck 方程开始

x[pss(x)xU(x)]+kTΔxpss(x)=0\nabla_x \cdot \left[p_{ss}(x) \nabla_x U(x)\right] + kT \Delta_x p_{ss}(x) = 0

我们可以将其重写为

x[pss(x)xU(x)+kTxpss(x)]=0\nabla_x \cdot \left[p_{ss}(x) \nabla_x U(x) + kT \nabla_x p_{ss}(x)\right] = 0

这表明括号内的概率流向量场 J(x)J(x) 是无散度的。在热力学平衡状态下,我们有更强的条件,即细致平衡 (detailed balance),这意味着净概率流在每一点都为零

J(x)=pss(x)xU(x)+kTxpss(x)=0J(x) = p_{ss}(x) \nabla_x U(x) + kT \nabla_x p_{ss}(x) = 0

整理上式,得到

kTxpss(x)=pss(x)xU(x)kT \nabla_x p_{ss}(x) = -p_{ss}(x) \nabla_x U(x)xpss(x)pss(x)=1kTxU(x)\frac{\nabla_x p_{ss}(x)}{p_{ss}(x)} = -\frac{1}{kT} \nabla_x U(x)

利用 xlogf(x)=xf(x)f(x)\nabla_x \log f(x) = \frac{\nabla_x f(x)}{f(x)},我们有

xlogpss(x)=1kTxU(x)\nabla_x \log p_{ss}(x) = -\frac{1}{kT} \nabla_x U(x)

xx 积分,得到

logpss(x)=U(x)kT+C\log p_{ss}(x) = -\frac{U(x)}{kT} + C'

其中 CC' 是积分常数。两边取指数,得到

pss(x)=eCeU(x)kTp_{ss}(x) = e^{C'} e^{-\frac{U(x)}{kT}}

这是一个未归一化的概率分布。为了使其成为一个有效的概率密度函数,我们需要对其进行归一化,即 pss(x)dx=1\int p_{ss}(x) dx = 1

eCeU(x)kTdx=1    eC=1eU(x)kTdx\int e^{C'} e^{-\frac{U(x)}{kT}} dx = 1 \implies e^{C'} = \frac{1}{\int e^{-\frac{U(x)}{kT}} dx}

令配分函数 Z=eU(x)kTdxZ = \int e^{-\frac{U(x)}{kT}} dx,则 eC=1Ze^{C'} = \frac{1}{Z}

因此,Langevin 动力学的稳态分布是玻尔兹曼分布

pss(x)=1ZeU(x)kT\boxed{ p_{ss}(x) = \frac{1}{Z} e^{-\frac{U(x)}{kT}} }

Comments Section