A. 一些定理#
A.1 Liouville 方程#
连续性方程
连续性方程是概率质量守恒的微分形式,描述了概率密度函数随时间的变化。设 pt(x) 是在时间 t 时刻位置 x 处的概率密度,ut(x) 是位置 x 处的速度场,则连续性方程为
∂t∂pt(x)+∇⋅Jt(x)=0其中 Jt(x)=ut(x)pt(x) 是概率流函数。连续性方程也就是 Liouville 方程。
推导
设 V 是空间中的一个体积区域,∂V 是其边界。PV(t)=∫Vpt(x)dx 是该体积区域内的概率质量。根据概率质量守恒 (流出的是负的流入的),有
dtdPV(t)=−∫∂VJt(x)⊤ndS其中 n 是边界的外侧法向量,代入
dtdPV(t)=dtd∫Vpt(x)dx和散度定理
∫∂VJt(x)⊤ndS=∫V∇⋅Jt(x)dx得到
dtd∫Vpt(x)dx=−∫V∇⋅Jt(x)dx交换微分和积分 (假设 pt(x) 足够光滑),有
∫V∂t∂pt(x)dx=−∫V∇⋅Jt(x)dx由于 V 是任意的,得到 Liouville 方程
∂t∂pt(x)+∇⋅(ut(x)pt(x))=0性质
- 偏微分方程解的唯一性:当 ut(x) 和初值条件 p0(x) 是确定的时候,方程的解 pt(x) 是唯一的。
- pt(x) 确定,ut(x) 不唯一:给定一族中间分布 {pt(x)}t∈[0,1],可以有无数个不同的速度场 ut(x) 满足 Liouville 方程。因为方程只给出了速度场的散度约束,而没有给出完整的速度场信息。
A.2 边缘性定理#
定理内容
边缘性定理 (Marginalization Theorem) 的数学形式为
utarget(xt,t)=∫utarget(xt,t∣z)p(z∣xt)dz=Ez∼p(z∣xt)[utarget(xt,t∣z)]它表明边缘速度场 utarget(xt,t) 可以通过条件速度场 utarget(xt,t∣z) 的加权平均来表示。
推导
(i) 边缘分布与 Liouville 方程
设 z∼pdata(z) 是一个真实样本,根据
pt(xt)=∫pt(xt∣z)pdata(z)dz对时间 t 求偏导 (这里假设 pt(xt∣z) 连续可导),得到
∂t∂pt(xt)=∫∂t∂pt(xt∣z)pdata(z)dz将条件分布的 Liouville 方程
∂t∂pt(xt∣z)+∇x⋅[pt(xt∣z)utarget(xt,t∣z)]=0和边缘分布的 Liouville 方程
∂t∂pt(xt)+∇x⋅[pt(xt)utarget(xt,t)]=0代入到上式中,得到
−∇x⋅[pt(xt)utarget(xt,t)]=∫−∇x⋅[pt(xt∣z)utarget(xt,t∣z)]pdata(z)dz(ii) 交换 ∫z 与 ∇x⋅
由于是对 z 求积分而对 x 取散度,且假设 pt(xt∣z) 与 utarget(xt,t∣z) 对 xt 连续可导,根据 Leibniz 积分微分交换定理,可以交换积分与散度算子
∇x⋅[pt(xt)utarget(xt,t)]=∇x⋅∫pt(xt∣z)utarget(xt,t∣z)pdata(z)dz现在,得到了散度相同的等式。
(iii) 去掉 ∇x⋅
令
A(x)=pt(x)utarget(x,t)B(x)=∫pt(x∣z)utarget(x,t∣z)pdata(z)dz现在形式转换为
∇x⋅A(x)=∇x⋅B(x)根据 Helmholtz 分解定理,任何足够光滑且衰减足够快的向量场都可以唯一地分解为无旋场(梯度场)和无散场之和。因为 ∇⋅A(x)=∇⋅B(x),所以它们的差 A(x)−B(x) 是一个无散场,即
A(x)=B(x)+∇×F(x)+C其中 ∇×F(x) 是无散场,C 是常数场。
假设
- 边界条件:当 ∥x∥→∞ 时,pt(x)→0,且 utarget(x,t) 有界。
- 概率流的物理意义:pt(x)utarget(x,t) 表示概率流密度,在无穷远处应为零。
在这些假设下,由于 pt(x)→0,我们有 A(x)→0,B(x)→0,当 ∥x∥→∞。因此常数项 C=0。对于无散项 ∇×F(x),如果它在无穷远处不为零,会导致非零的概率流穿过无穷远边界,这违反概率守恒。因此 ∇×F(x)=0。
于是我们得到
A(x)=B(x)即
pt(xt)utarget(xt,t)=∫pt(xt∣z)utarget(xt,t∣z)pdata(z)dz(iv) 贝叶斯定理
由贝叶斯定理,得到
utarget(xt,t)=∫utarget(xt,t∣z)p(z∣xt)dz=Ez∼p(z∣xt)[utarget(xt,t∣z)]A.3 概率流等价定理#
定理内容
设 {pt(x)}t∈[0,1] 是一族连续可微的概率分布,且 p0(x)=pprior(x),p1(x)=pdata(x)。假设存在一个光滑的速度场 ut(x) 满足 Liouville 方程
∂t∂pt(x)+∇x⋅[pt(x)ut(x)]=0其中,速度场对应有一个常微分方程 (ODE)
dtdXt=ut(Xt),X0∼pprior(x0),t∈[0,1]则存在一个随机微分方程 (SDE)
dXt=[ut(Xt)+2σt2∇Xtlogpt(Xt)]dt+σtdWt,X0∼pprior(x0),t∈[0,1]其边缘分布 {pt(x)}t∈[0,1] 与 Liouville 方程给出的一致。
证明
(i) 符号表示
设 xt 满足服从概率路径 {pt(xt)}t∈[0,1],假设同时有 ODE
dtdxt=ut(xt),x0∼pprior(x0),t∈[0,1]和 SDE
dxt=vt(xt)dt+σtdWt,x0∼pprior(x0),t∈[0,1]对应这条概率路径。
(ii) Liouville 方程与 Fokker-Planck 方程联立
根据 Liouville 方程 和 Fokker-Planck 方程,分别有
∂t∂pt(x)=−∇x⋅[pt(x)ut(x)]∂t∂pt(x)=−∇x⋅[pt(x)vt(x)]+21∇x2:(σtσt⊤pt(x))其中 ∇x2: =∑i=1d∑j=1d∂xi∂xj∂2 表示对矩阵的双重散度操作, Dt=σtσt⊤∈Rd×d 是扩散张量。联立方程,得到
∇x⋅[pt(x)ut(x)]=∇x⋅[pt(x)vt(x)]−21∇x2:(Dtpt(x))整理得到
∇x⋅[pt(x)(ut(x)−vt(x))]=−21∇x2:(Dtpt(x))(iii) 计算 ∇x2:(Dtpt(x))
展开
∇x2:(Dtpt(x))得到
∇x2:(Dtpt(x))=∇x⋅[∇x⋅(Dtpt(x))]=∇x⋅[(∇x⋅Dt)pt(x)+Dt∇xpt(x)]其中,矩阵的一阶散度
∇x⋅(Dtpt(x))=[∑i=1d∂xi∂Di1,∑i=1d∂xi∂Di2,⋯,∑i=1d∂xi∂Did]⊤是一个 d 维列向量。推导中用到了矩阵数乘形式的散度展开公式 ∇⋅(Ap)=(∇⋅A)p+A∇p。
(iv) 代入并取特殊情况
将上式代入,得到
∇x⋅[pt(x)(ut(x)−vt(x))]=−21∇x⋅[(∇x⋅Dt)pt(x)+Dt∇xpt(x)]很显然,当我们直接取
pt(x)(ut(x)−vt(x))=−21[(∇x⋅Dt)pt(x)+Dt∇xpt(x)]时,上面的散度等式成立。由此化简,得到
vt(x)=ut(x)+21∇x⋅Dt+21Dt∇xlogpt(x)如果 Dt 是关于 x 的变量,则 ∇x⋅Dt 是一个 d 维列向量。否则,∇x⋅Dt=0,也即
vt(x)=ut(x)+21Dt∇xlogpt(x)这是更常见的一种形式。特别地,当 Dt=σt2Id 时,得到
vt(x)=ut(x)+2σt2∇xlogpt(x)另一种表达形式
概率流等价定理还有另一种公式形式。设有 SDE
dXt=ut(Xt)dt+σtdWt,X0∼pprior(x0),t∈[0,1]其等价的 ODE 为
dtdXt=ut(Xt)−2σt2∇Xtlogpt(Xt),X0∼pprior(x0),t∈[0,1]C. 方程求解过程#
C.1 条件速度场的解析形式#
我们直接从已知方程出发
σt2(xt−μt(z))⊤μt˙(z)+σt3∥xt−μt(z)∥2σt˙−σtσt˙d=σt2(xt−μt(z))⊤utarget(xt,t∣z)−∇xt⋅utarget(xt,t∣z)齐次方程分析
考虑对应的齐次方程
σt2(xt−μt(z))⊤uh−∇xt⋅uh=0令 y=xt−μt(z),方程变为
σt2y⊤uh(y)−∇y⋅uh(y)=0在加权 Sobolev 空间 L2(Rd,pt(y)dy) 中分析,其中 pt(y)=(2πσt2)d/21exp(−2σt2∥y∥2)。
正交分解论证
将 uh(y) 分解为径向部分和切向部分
uh(y)=uh∥(y)+uh⊥(y)其中 uh∥(y) 与 y 平行,uh⊥(y) 与 y 垂直。
径向部分分析
设 uh∥(y)=f(∥y∥)∥y∥y,代入齐次方程
第一项
σt2y⊤uh∥=σt2∥y∥f(∥y∥)散度项
∇y⋅uh∥=∇y⋅(f(∥y∥)∥y∥y)=f′(∥y∥)+∥y∥d−1f(∥y∥)齐次方程变为
σt2∥y∥f(∥y∥)−[f′(∥y∥)+∥y∥d−1f(∥y∥)]=0整理得
f′(∥y∥)+[∥y∥d−1−σt2∥y∥]f(∥y∥)=0解此一阶线性ODE,得到
f(∥y∥)=C∥y∥1−dexp(2σt2∥y∥2)但在 L2(Rd,pt(y)dy) 空间中,该解不满足可积性条件
∫Rd∣uh∥(y)∣2pt(y)dy∝∫0∞∥y∥2−2dexp(σt2∥y∥2)exp(−2σt2∥y∥2)∥y∥d−1d∥y∥因此 f(∥y∥)≡0,即 uh∥(y)≡0。
切向部分分析
现在考虑 uh⊥(y),满足 y⊤uh⊥(y)=0。
齐次方程简化为
−∇y⋅uh⊥(y)=0考虑任意光滑紧支撑标量函数 ϕ(y),由散度定理
∫Rdϕ(y)∇y⋅uh⊥(y)dy=−∫Rd∇yϕ(y)⋅uh⊥(y)dy=0这意味着 uh⊥ 在分布意义下无散度。但在 L2(Rd,pt(y)dy) 空间中,满足 y⊤uh⊥=0 且 ∇y⋅uh⊥=0 的非零向量场必须具有特定的调和形式。通过傅里叶分析或考虑加权空间中的Hodge分解,可以证明在合理的边界条件下(在无穷远处衰减足够快),唯一的解是 uh⊥(y)≡0。
唯一性结论
因此,在加权 L2 空间中,齐次方程只有零解。根据线性微分方程理论,原非齐次方程如果有解,则解是唯一的。
构造特解
既然解唯一,我们通过待定系数法构造特解。假设解具有形式
utarget(xt,t∣z)=A(t)(xt−μt(z))+b(t)计算散度项
∇xt⋅utarget=A(t)d代入方程左边
σt2A(t)∥xt−μt(z)∥2+σt2(xt−μt(z))⊤b(t)−A(t)d与右边比较系数
- ∥xt−μt(z)∥2 系数:σt2A(t)=σt3σt˙⇒A(t)=σtσt˙
- (xt−μt(z)) 系数:σt2b(t)=σt2μt˙(z)⇒b(t)=μt˙(z)
- 常数项验证:−A(t)d=−σtσt˙d 成立
因此得到唯一解
utarget(xt,t∣z)=σtσt˙(xt−μt(z))+μt˙(z)C.2 Langevin 动力学的稳态分布#
直接从稳态 Fokker-Planck 方程开始
∇x⋅[pss(x)∇xU(x)]+kTΔxpss(x)=0我们可以将其重写为
∇x⋅[pss(x)∇xU(x)+kT∇xpss(x)]=0这表明括号内的概率流向量场 J(x) 是无散度的。在热力学平衡状态下,我们有更强的条件,即细致平衡 (detailed balance),这意味着净概率流在每一点都为零
J(x)=pss(x)∇xU(x)+kT∇xpss(x)=0整理上式,得到
kT∇xpss(x)=−pss(x)∇xU(x)pss(x)∇xpss(x)=−kT1∇xU(x)利用 ∇xlogf(x)=f(x)∇xf(x),我们有
∇xlogpss(x)=−kT1∇xU(x)对 x 积分,得到
logpss(x)=−kTU(x)+C′其中 C′ 是积分常数。两边取指数,得到
pss(x)=eC′e−kTU(x)这是一个未归一化的概率分布。为了使其成为一个有效的概率密度函数,我们需要对其进行归一化,即 ∫pss(x)dx=1。
∫eC′e−kTU(x)dx=1⟹eC′=∫e−kTU(x)dx1令配分函数 Z=∫e−kTU(x)dx,则 eC′=Z1。
因此,Langevin 动力学的稳态分布是玻尔兹曼分布
pss(x)=Z1e−kTU(x)