变分法基础

首次发布: 2026-02-23

... 次访问

变分学是研究泛函极值（以及更一般的临界值）的一个数学分支，在机器学习、物理学等领域有广泛的应用。

1. 泛函#

1.1 泛函的定义#

在数学中，泛函（Functional）是指定义域为某个函数空间，而值域为数域（如实数域或复数域）的映射。更具体地说，设 $M$ 是一个函数空间（例如 $C^k(S, \mathbb{R})$ ，表示定义在集合 $S$ 上的 $k$ 阶连续可微实值函数的全体），定义泛函是一个从 $M$ 到 $\mathbb{R}$ 或 $\mathbb{C}$ 的映射

I: M \to \mathbb{R} \quad \text{or} \quad I: M \to \mathbb{C}

即对每个 $u \in M$ ， $I[u]$ 是一个实数或复数。泛函的自变量是“函数”，而不是通常意义上的数。

例如，设 $\Omega \subset \mathbb{R}^n$ 是一个有界开集， $x_0 \in \Omega$ 是一个固定点， $F \in C(\bar\Omega), M = C^1(\bar\Omega)$ ，其中 $\bar\Omega$ 是 $\Omega$ 的闭包，则

I_1[u] = \max_{x \in \bar\Omega} |u(x)|

I_2[u] = u(x_0)

I_3[u] = \int_\Omega \left[|\nabla u(x)|^2 - F(u(x))\right] dx

都是泛函。这里需要注意的是，泛函不是复合函数。例如，设 $f$ 是一个定义在实数域 $\mathbb{R}$ 上的一元函数，

I_4[u] = f(u(x))

不是泛函，因为结果不是一个数，而是一个关于 $x$ 的函数，泛函的值是不应该依赖于 $x$ 的！

注意

Fourier 变换不是泛函，虽然形式上看， $\mathcal{F}[u(t)]$ 确实也有一个方括号，但是它输出的是一个函数，所以不是泛函。从本质上讲，Fourier 变换是一个算子（Operator），它是定义在函数空间上的映射，输入一个函数，输出一个函数。

1.2 变分学中泛函的形式#

在变分学中，泛函的取值一般是实数。给定一个三变量函数 $L(t, u, p) \in C^1(\bar\Omega \times \mathbb{R}^n \times \mathbb{R}^n, \mathbb{R})$ ，变分学主要研究如下形式的泛函:

I[u] = \int_\Omega L(x, u(x), \nabla u(x))dx,

其中 $M$ 是连续可微函数类 $C^1(\bar\Omega, \mathbb{R})$ 的子集合，或者某种广义可微函数类的子集合。

1.3 一些例子#

最速降线

在垂直平面上给定两点 $A = (x_1, y_1)$ 和 $B = (x_2, y_2)$ ，其中 $x_1 < x_2, y_1 > y_2$ . 一个值点沿着一条连接这两点的光滑曲线仅凭借重力下滑。设初速度为零，问沿怎样的一条曲线滑行时间最短？

设 $u \in C^1[x_1, x_2], \{(x, u(x)) | x \in [x_1, x_2], u(x_i) = y_i, i = 1, 2\}$ 是连接 $A, B$ 的一条曲线。因为有

\begin{cases} \frac{1}{2}mv^2 = mgh, \\ v = \frac{ds}{dt} \end{cases}

所以

v = \sqrt{2g(y_1 - u(x))}.

以及

dt = \frac{ds}{v} = \sqrt{\frac{1 + |u'(x)|^2}{2g(y_1 - u(x))}}

因此滑行时间为

T = \int_{x_1}^{x_2} \sqrt{\frac{1 + |u'(x)|^2}{2g(y_1 - u(x))}} dx.

令

M = \{u \in C^1[x_1, x_2] | u(x_i) = y_i, i = 1, 2\}

则映射

I: M \to \mathbb{R}, I[u] = \int_{x_1}^{x_2} \sqrt{\frac{1 + |u'(x)|^2}{2g(y_1 - u(x))}} dx

是一个泛函。问题转化为在 $M$ 中求 $u$ 以使得 $I$ 最小。

极小曲面

在空间 $\mathbb{R}^3$ 中给定一条 Jordan 曲线 $\Gamma$ ，能否找到一个盘状的曲面 $S$ 张在 $\Gamma$ 上使其面积达到最小值？首先定义从单位圆 $D$ 到 $\mathbb{R}^3$ 的参数化映射（曲面函数）

Z: \bar D \to \mathbb{R}^3, (u, v) \mapsto \vec{r}(u, v) = (x(u, v), y(u, v), z(u, v)),

其中 $D \subset \mathbb{R}^2$ 是单位圆 $u^2 + v^2 \le 1, \bar D$ 为 $D$ 的闭包。需要注意的是，这里区分了 $S$ 和 $Z$ 是因为 $S$ 是一个几何对象，而 $Z$ 是一个函数对象， $Z$ 的值域是 $S$ ，但 $Z$ 不是 $S$ 。因此我们可以把 $S$ 看成是 $Z$ 的值域，或者说 $Z$ 是 $S$ 的一个参数化，这个关系描述为

S = Z(\bar D) \subset \mathbb{R}^3,

也就是 $S$ 是 $Z$ 的值域。

\begin{cases} x = x(u, v), \\ y = y(u, v), \\ z = z(u, v). \end{cases}

曲线的面积为

A(Z) = \int_D |Z_u \times Z_v| dudv = \int_D \sqrt{(x_uy_v - x_vy_u)^2 + (x_uz_v - x_vz_u)^2 + (y_uz_v - y_vz_u)^2} dudv.

面积 $A(Z)$ 就是关于曲面函数 $Z$ 的一个泛函。

这个泛函需要满足边界条件 $Z|_{\partial D}$ 与 $\Gamma$ 同胚。转换为标准的泛函模型,

M = \{Z \in C^1(\bar D, \mathbb{R}^3) |\,\, Z|_{\partial D} \simeq \Gamma\}

然后求在这个函数集合上的 $A(Z)$ 的极小值。

这里的有几个符号需要澄清

$\Gamma = \partial S$ 表示曲面 $S$ 的边界是 $\Gamma$ 。
$Z|_{\partial D} \simeq \Gamma$ 表示 $Z$ 在边界 $\partial D$ 上的取值集合与 $\Gamma$ 同胚。、
$Z|_{\partial D} \simeq \Gamma$ 这个同胚关系是由同胚映射 $Z$ 推导出来的，因为 $\bar D$ 与 $S$ 是同胚的，所以 $\partial D$ 与 $\Gamma$ 也是同胚的。
同胚就是指两个集合之间存在一个双射，并且这个双射和它的逆都是连续的。

图像分割

在一张图片中查明人像的边缘。设此图形占有平面区域 $\Omega \subset \mathbb{R}^2$ ，用函数 $g: \Omega \to \mathbb{R}$ 表示这张图片（信号强度）。我们需要寻求另一个函数 $u: \Omega \to \mathbb{R}$ ，使之在人像的边缘处与原图像尽量吻合，且在其余出尽量不要有多余的响应。为了描写像的边缘，引入具有有限一维 Hausdorff 测度的闭子集合 $K \subset \bar\Omega, H^1(K) < \infty$ ，其中 $H^1(K)$ 是 $K$ 的一维 Hausdorff 测度。定义

I(K, u) = \underbrace{\int_{\Omega / K} |\nabla u|^2 dx dy}_{\text{Smoothing Term}} + \mu \underbrace{\int_{\Omega / K} |u - g|^2 dxdy}_{\text{Data Fitting Term}} + \underbrace{\lambda H^1(K)}_{\text{Edge Length Penalty Term}}

其中 $\lambda, \mu > 0$ 是权系数。这里的 $I$ 不仅依赖于函数 $u$ ，而且还依赖于闭子集 $K$ ，这个集合可以看作是一个特征函数

\chi_K(x) = \begin{cases}1, \quad x \in K, \\ 0, \quad x \in \Omega/K \end{cases}

因此 $I$ 也是一个泛函，且依赖于 $\chi_K$ 和 $u$ 。

$H^1(K)$ 是 $K$ 的一维 Hausdorff 测度，这里就是 $K$ 的曲线长度。
平滑项的作用是减少发生强度的突变。
$K$ 在这里表示人像的边缘区域，考虑到边缘区域未知，因此它也是一个变化量。

2. 泛函的极值与一阶变分#

2.1 直觉动机#

函数的导数（梯度）刻画的是在给定点 $x_0$ 处，对自变量 $x$ 给予微小扰动时对应函数 $f(x)$ 的函数值变化情况。极值点处的导数（梯度）对应是零，也就是说在极值点处，施加微小扰动，函数值是稳定且几乎不变化的。

参考函数极值的必要条件，我们对函数 $u_0(t)$ 施加其邻域空间 (是函数空间) 中的微小扰动 $\varepsilon \varphi(t)$ , 然后观察泛函 $I[u]$ 的变化情况。如果泛函关于扰动量大小 $\varepsilon$ 的变化率 $\lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon} = 0$ ，则说明 $I[u]$ 在 $u_0$ 附近是稳定的， $u_0$ 有可能就是泛函 $I[u]$ 的一个“极值点”。

2.2 泛函极值的定义（一元函数的例子）#

给定两个集合 $J \subset \mathbb{R}$ ， $\Omega \subset \mathbb{R}$ ，和一个连续可微函数 $L(t, u, p) \in C^1(J \times \Omega \times \mathbb{R}, \mathbb{R})$ 。设泛函为

I[u] = \int_J L(t, u(t), \dot u(t))dt,

其中 $u \in M$ ， $M = C^1(J, \Omega)$ 是泛函 $I[u]$ 的定义域。

给定一个函数 $u_0 \in M$ 。若存在 $u_0$ 的一个邻域 $U \subset M$ ，使得

I[u] \ge I[u_0], \quad \forall u \in U,

则称 $u_0$ 是 $I[u]$ 的一个极小值点。类似地，当满足条件

I[u] \le I[u_0], \quad \forall u \in U,

则称 $u_0$ 是 $I[u]$ 的一个极大值点。

注意

函数空间是必须由函数的定义域 $J$ 和函数的值域 $\Omega$ 共同确定的，这意味着函数 $u_0$ 邻域 $U$ 中的全体函数必须具有与 $u_0$ 相同的定义域和相同的值域。
符号规范上， $J$ 表征的是时间的集合， $\Omega$ 表征的是状态的集合。

2.3 一阶变分的定义#

继续挖掘泛函 $I[u]$ 对扰动大小 $\varepsilon$ 的变化率。由于 $L \in C^1(J \times \Omega \times \mathbb{R}, \mathbb{R})$ 且 $\varphi \in C^1(J, \mathbb{R})$ ，因此可以交换求导与积分:

\begin{aligned} &\lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon} \\ =\ &\frac{\partial I[u_0 + \varepsilon\varphi]}{\partial \varepsilon}\Big|_{\varepsilon = 0} \\ =\ & \frac{\partial}{\partial \varepsilon} \int_J L(t, u_0 + \varepsilon\varphi, \dot u_0 + \varepsilon\dot\varphi) dt\Big|_{\varepsilon = 0} \\ =\ &\int_J \left[L_{u}(t, u_0(t), \dot u_0(t))\varphi(t) + L_{p}(t, u_0(t), \dot u_0(t))\dot\varphi(t)\right] dt \end{aligned}

计算中，发现这个变化率本身的数值与 $\varepsilon$ 的取值是无关的，它是一个关于 $\varepsilon$ 的线性项的系数。既然与 $\varepsilon$ 的数值无关，考虑到扰动项本身由 $\varepsilon$ 和 $\varphi$ 两部分构成，因此变化率 $\lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon}$ 就可以认为是由 $\varphi$ 部分引起的、消除了 $\varepsilon \to 0$ 尺度影响的，归一化了的量。

我们定义这个量为一阶变分，记作 $\delta I[u_0, \varphi]$ ，意即由扰动函数 $\varphi$ 引起的、在 $u_0$ 处的泛函 $I$ 的一阶变化量:

\boxed{ \delta I[u_0, \varphi] = \lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon} = \frac{\partial I[u_0 + \varepsilon\varphi]}{\partial \varepsilon}\Big|_{\varepsilon = 0} }

具体的计算公式为

\boxed{ \delta I[u_0, \varphi] = \int_J \left[L_{u}(t, u_0(t), \dot u_0(t))\varphi(t) + L_{p}(t, u_0(t), \dot u_0(t))\dot\varphi(t)\right] dt }

注意

$\varphi$ 的值域不一定是 $\Omega$ ，作为扰动函数，其取值可以是 $R / \Omega$ 中的任意数值。

2.4 泛函极值的必要条件#

直觉告诉我们，极值点处的一阶变分应该为零。下面我们通过从极值点的定义出发，推导出这个结论。

这里我们首先取 $U = \{u \in M \big| \Vert u - u_0\Vert < \delta\}$ (范数的定义可以自行选取)。目标是对任意的 $\varphi \in C^1(J, \mathbb{R})$ ，都能存在 $\varepsilon(\varphi) > 0$ ，使得当 $0 < |\varepsilon| < \varepsilon(\varphi)$ 时，有

\Vert (u_0 + \varepsilon\varphi) - u_0\Vert = |\varepsilon| \cdot \Vert\varphi\Vert < \delta

从而满足 $u_0 + \varepsilon\varphi \in U$ 的条件。事实上，取 $\varepsilon(\varphi) = \frac{\delta}{\Vert\varphi\Vert + 1}$ (注意 $\varphi \ne 0$ 时 $\Vert\varphi\Vert > 0$ ) 就可以实现这个目标。

将 $u = u_0 + \varepsilon\varphi$ 代入到 $I[u] \ge I[u_0]$ 中，从而得到极小值点的充要条件:

I[u_0 + \varepsilon \varphi] \ge I[u_0], \quad \forall \varphi \in C^1(J, \mathbb{R}), \exists \varepsilon(\varphi) > 0, 0 < |\varepsilon| < \varepsilon(\varphi).

这个式子告诉我们不管是什么样的函数扰动，都可以通过构造恰到好处的 $\varepsilon$ 实现 $I[u_0 + \varepsilon\varphi] - I[u_0] \ge 0$ 。当 $\varepsilon > 0$ 时,

\delta I[u_0, \varphi] = \lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon} \ge 0, \quad \forall \varphi \in C^1(J, \mathbb{R}),

但是当 $\varepsilon < 0$ 时,

\delta I[u_0, \varphi] = \lim_{\varepsilon \to 0} \frac{I[u_0 + \varepsilon\varphi] - I[u_0]}{\varepsilon} \le 0, \quad \forall \varphi \in C^1(J, \mathbb{R}).

由此得出结论，当 $u_0$ 是 $I[u]$ 的一个极小值点时，泛函的一阶变分 $\delta I[u_0, \varphi]$ 必须为零；类似地，当 $u_0$ 是 $I[u]$ 的一个极大值点时，这个结果同样成立。于是我们得出了泛函极值点的必要条件：

\boxed{ \delta I[u_0, \varphi] = 0, \quad \forall \varphi \in C^1(J, \mathbb{R}) }

2.5 Euler-Lagrange 方程#

令一阶变分 $\delta I[u_0, \varphi] = 0$ 可以缩小极值点的搜索范围，但是该方程的求解涉及到复杂的积分方程。为了在贴近实际应用场景的同时简化求解过程，对给定的函数空间 $M$ 做一些边界取值的约束。

设泛函的定义域为

M = \{u \in C^1(J, \Omega) \big| u(t_0) = a, u(t_1) = b\}

其中 $J = [t_0, t_1]$ 是一个时间区间， $\Omega \subset \mathbb{R}$ 是一个状态空间， $a, b \in \Omega$ 是两个常数值。此外，为了保证经过扰动后的函数仍然属于 $M$ ，通常限定 $\varphi \in C_0^1(J, \mathbb{R})$ ，也即 $\varphi(t_0) = \varphi(t_1) = 0$ 。

利用分部积分法，可以简化一阶变分

\begin{aligned} \delta I(u_0, \varphi) &= \int_J \left[L_{u}(t, u_0(t), \dot u_0(t))\varphi(t) + L_{p}(t, u_0(t), \dot u_0(t))\dot\varphi(t)\right] dt \\ &= \int_J L_{u}(t, u_0(t), \dot u_0(t))\varphi(t)dt + L_p(t, u_0(t), \dot u_0(t))\varphi(t)\Big|_{t_0}^{t_1} - \int_J \frac{d}{dt}L_{p}(t, u_0(t), \dot u_0(t))\cdot\varphi(t) dt, \\ \end{aligned}

由于 $\varphi(t_0) = 0, \varphi(t_1) = 0$ ，因此

\delta I(u_0, \varphi) = \int_J \left[L_{u}(t, u_0(t), \dot u_0(t)) - \frac{d}{dt}L_{p}(t, u_0(t), \dot u_0(t))\right]\varphi(t) dt.

由于 $\varphi$ 是任意选取的，得到

\boxed{ L_{u}(t, u_0(t), \dot u_0(t)) - \frac{d}{dt}L_{p}(t, u_0(t), \dot u_0(t)) = 0, \quad \forall t \in J. }

这个微分方程就是 Euler-Lagrange 方程，它是寻找泛函极值的必要条件。也可以写成下面的形式

\boxed{ \frac{\partial L}{\partial u} - \frac{d}{dt}\left(\frac{\partial L}{\partial \dot u}\right) = 0 }

注意

Euler-Lagrange 可以推广到 Lagrange 函数 $L$ 依赖更高阶的函数导数的情况，例如含三阶导数的情况

\frac{\partial L}{\partial u} - \frac{d}{dt}\left(\frac{\partial L}{\partial u^{(1)}}\right) + \frac{d^2}{dt^2}\left(\frac{\partial L}{\partial u^{(2)}}\right) - \frac{d^3}{dt^3}\left(\frac{\partial L}{\partial u^{(3)}}\right) = 0

Euler-Lagrange 方程在分析力学中有重要应用，通过构造物理系统的 Lagrange 函数 $L = K - P$ ，其中 $K$ 是系统的动能， $P$ 是系统的势能，可以通过求解 Euler-Lagrange 方程来得到系统的运动方程。

2.6 向量值函数的情况#

现对函数 $u$ 是向量值函数的情况做推广。设 $u: J \to \Omega$ 是一个 $n$ 维向量值一元函数，其中 $J = [t_0, t_1]$ 是一个时间区间， $\Omega \subset \mathbb{R}^n$ 是一个状态空间。设 $L(t, u, p) \in C^1(J \times \Omega \times \mathbb{R}^{n}, \mathbb{R})$ ，则泛函为

I[u] = \int_J L(t, u(t), \dot u(t)) dt,

对应的一阶变分在计算中需要对 $u$ 的每一个分量进行求偏导，得到

\begin{aligned} \delta I[u_0, \varphi] &= \int_J \left[L_{u}(t, u_0(t), \dot u_0(t))\cdot\varphi(t) + L_{p}(t, u_0(t), \dot u_0(t))\cdot\dot\varphi(t)\right] dt \\ &= \int_J \sum_{i=1}^n \left[L_{u_i}(t, u_0(t), \dot u_0(t))\varphi_i(t) + L_{p_i}(t, u_0(t), \dot u_0(t))\dot\varphi_i(t)\right] dt \\ &= \int_J \sum_{i=1}^n \left[L_{u_i}(t, u_0(t), \dot u_0(t)) - \frac{d}{dt}L_{p_i}(t, u_0(t), \dot u_0(t))\right]\varphi_i(t) dt \end{aligned}

由于每一个 $\varphi_i$ 都是任意选取的，因此得到的是 $n$ 个 Euler-Lagrange 方程构成的方程组:

\boxed{ \frac{\partial L}{\partial u_i} - \frac{d}{dt}\left(\frac{\partial L}{\partial \dot u_i}\right) = 0, \quad i = 1, 2, \cdots, n. }

3. 一阶变分导数#

3.1 变分导数的定义#

设有泛函 $I[u]: M \to \mathbb{R}$ ，形式为

I[u] = \int_J L(t, u(t), \dot u(t)) dt,

定义该泛函 $I[u]$ 对无约束函数 $u(t)$ 的一阶变分导数 (也称泛函导数) $\frac{\delta I[u]}{\delta u}$ 是满足如下变分公式的函数:

\delta I[u, \varphi] = \int_J \frac{\delta I[u]}{\delta u} \cdot \varphi(t) dt

其中 $\varphi(t)$ 是变分空间内的函数扰动。

3.2 变分导数的计算#

当 $J$ 为一个区间，且 $\varphi(t)$ 在区间 $J$ 的端点处取值为零时，可以得到泛函导数的具体计算公式为

\frac{\delta I[u]}{\delta u} = \frac{\partial L}{\partial u} - \frac{d}{dt}\left(\frac{\partial L}{\partial \dot u}\right)

其中 $L(t, u, p)$ 是泛函的 Lagrange 函数， $\frac{\partial L}{\partial \dot u} = L_p$ ， $\frac{\partial L}{\partial u} = L_u$ 。

求解泛函导数通常有两种方法

定义法：计算出 $\delta I[u, \varphi]$ 并比较泛函导数的定义从而得到
Lagrange 函数法：判别出 Lagrange 函数的形式，从而直接套用泛函导数的计算公式 (对 $\varphi(t)$ 有限制条件)

注意

泛函导数 $\frac{\delta I[u]}{\delta u}$ 是一个关于 $t$ 的函数，其定义域为 $J$ ；
上面泛函导数的定义和计算是针对函数变量 $u(t)$ 无约束 的情况定义的；

3.3 约束函数的情况#

当函数变量 $u(t)$ 有约束条件时，不能直接套用上述的定义和计算公式求得泛函导数。此时需要将约束问题通过 Lagrange 乘子法转化为等价的无约束情况，然后才可以使用相关的定义:

设 $I[u] = \int_J F(t, u(t), \dot u(t)) dt$ ，约束条件为点态等式约束 $g(t, u, \dot u) = 0$ ，点态不等式约束 $h(t, u, \dot u) \leq 0$ 和积分态约束 $V[u] = \int_J v(t, u(t), \dot u(t)) dt = 0$ 。引入 Lagrange 乘子 $\lambda_1(t), \lambda_2(t), \lambda_3$ ，构造新的 Lagrange 函数

\begin{aligned} L(t, u, p) = F(t, u, p) + \lambda_1(t) g(t, u, p) + \lambda_2(t) h(t, u, p) + \lambda_3 v(t, u, p) \end{aligned}

其中点态不等式约束的乘子函数 $\lambda_2(t) \ge 0$ ，且满足互补松弛条件 $\lambda_2(t) h(t, u, p) = 0$ 。

然后新的泛函是

\tilde I[u] = \int_J L(t, u(t), \dot u(t)) dt = \int_J \left[F(t, u(t), \dot u(t)) + \lambda_1 g(t, u(t), \dot u(t)) + \lambda_2 h(t, u(t), \dot u(t)) + \lambda_3 v(t, u(t), \dot u(t))\right] dt

从而可以通过求解 $\tilde I[u]$ 的泛函导数来得到满足约束条件的泛函导数。

3.4 例子——微分熵的泛函导数#

设 $p(x)$ 是一个概率密度函数，定义微分熵为

h[p] = -\int_{a}^{b} p(x) \log p(x) dx

错误的想法

发现 " $L$ " 函数为 $L(x, p, p') = -p(x) \log p(x)$ ，带入泛函导数的计算公式，得到

\begin{aligned} \frac{\delta h[p]}{\delta p} &= \frac{\partial L}{\partial p} - \frac{d}{dx}\left(\frac{\partial L}{\partial p'}\right) \\ &= -\log p(x) - 1 \end{aligned}

我们接下来用一阶变分的公式来验证

\begin{aligned} \delta h[p, \pi] &= \frac{\partial }{\partial \varepsilon} h[p + \varepsilon \pi]\Big|_{\varepsilon = 0} \\ &= \int_{a}^{b} \frac{\partial }{\partial \varepsilon} \left[-(p(x) + \varepsilon \pi(x)) \log(p(x) + \varepsilon \pi(x))\right] \big|_{\varepsilon = 0} dx \\ &= \int_{a}^{b} \left[-\pi(x) \log p(x) - \pi(x)\right] dx \\ &= \int_{a}^{b} \left[-\log p(x) - 1\right] \pi(x) dx \\ \end{aligned}

对比发现变分导数是符合定义公式的。

但是我们令变分导数 $\frac{\delta h[p]}{\delta p} = 0$ ，发现得到的分布是 $p(x) = e^{-1}$ ，这显然是不对的，因为 $p(x)$ 连归一化条件都不满足。

正确的解法

在微分熵的例子中，约束条件是 $p(x)$ 是一个概率密度函数，需要满足积分态约束 $\int_{a}^{b} p(x) dx = 1$ 和点态不等式约束 $p(x) \ge 0$ 。引入 Lagrange 乘子 $\lambda_1(x), \lambda_2$ ，得到真正的 Lagrange 函数为

L(x, p, p') = -p(x) \log p(x) + \lambda_1(x) p(x) + \lambda_2 p(x)

求泛函导数为

\begin{aligned} \frac{\delta h[p]}{\delta p} &= \frac{\partial L}{\partial p} - \frac{d}{dx}\left(\frac{\partial L}{\partial p'}\right) \\ &= -\log p(x) - 1 + \lambda_1(x) + \lambda_2 \end{aligned}

由此解出

p(x) = e^{\lambda_1(x) + \lambda_2 - 1}

由于指数函数的非负性，根据互补松弛条件，得到 $\lambda_1(x) = 0$

再代入归一化条件 $\int_{a}^{b} p(x) dx = 1$ ，得到

\int_{a}^{b} e^{\lambda_2 - 1} dx = 1 \Rightarrow e^{\lambda_2 - 1}(b - a) = 1 \Rightarrow \lambda_2 = 1 + \log(b - a)

从而得到微分熵的极大值点为

p(x) = \frac{1}{b - a}

验证了均匀分布是无矩约束情况下的微分熵的极大值点这个结论。

事实上，当去掉点态不等式约束 $p(x) \ge 0$ ，仅保留积分态约束 $\int_{a}^{b} p(x) dx = 1$ 时，得到的结果也是 $p(x) = \frac{1}{b - a}$ 。

附录#

A. 符号表#

符号	含义
$C^1(S, R)$	定义在函数定义域为 $S$ , 函数值域为 $R$ 上的一阶连续可微函数空间
$C_0^1([t_0, t_1], R)$	定义在函数定义域为 $S$ , 函数值域为 $R$ 上的一阶连续可微函数空间，且在区间端点处函数值为零
$I[u]$	泛函，定义在函数空间上的映射
$u_0$	泛函的极值点
$\varphi$	变分函数，表示对 $u_0$ 的微小扰动
$\delta I(u_0, \varphi)$	泛函 $I$ 的一阶变分，表示 $I$ 在 $u_0$ 处对 $\varphi$ 的变化率
$L(t, u, p)$	拉格朗日函数，定义在时间 $t$ 、函数值 $u$ 和导数 $p$ 上的函数
$\frac{\delta I[u]}{\delta u}$	泛函 $I$ 对函数 $u$ 的一阶变分导数 (泛函导数)

参考文献#

[1] 张恭庆. 变分学讲义 [M]. 北京: 北京大学出版社, 2005.
[2] Euler L. Methodus Inveniendi Lineas Curvas Maximi Minive Proprietate Gaudentes, Sive Solutio Problematis Isoperimetrici Latissimo Sensu Accepti [M]. Lausanne: Bousquet, 1744.
[3] Lagrange J.-L. Essay on a New Method for Determining the Maxima and Minima of Indefinite Integral Formulae [J]. Miscellanea Taurinensia, 1760, 2: 179–252.