变分学是研究泛函极值(以及更一般的临界值)的一个数学分支,在机器学习、物理学等领域有广泛的应用。
1. 泛函
1.1 泛函的定义
在数学中,泛函(Functional)是指定义域为某个函数空间,而值域为数域(如实数域或复数域)的映射。更具体地说,设 是一个函数空间(例如 ,表示定义在集合 上的 阶连续可微实值函数的全体),定义泛函是一个从 到 或 的映射
即对每个 , 是一个实数或复数。泛函的自变量是“函数”,而不是通常意义上的数。
例如,设 是一个有界开集, 是一个固定点,,其中 是 的闭包,则
都是泛函。这里需要注意的是,泛函不是复合函数。例如,设 是一个定义在实数域 上的一元函数,
不是泛函,因为结果不是一个数,而是一个关于 的函数,泛函的值是不应该依赖于 的!
注意
- Fourier 变换不是泛函,虽然形式上看, 确实也有一个方括号,但是它输出的是一个函数,所以不是泛函。从本质上讲,Fourier 变换是一个算子(Operator),它是定义在函数空间上的映射,输入一个函数,输出一个函数。
1.2 变分学中泛函的形式
在变分学中,泛函的取值一般是实数。给定一个三变量函数 ,变分学主要研究如下形式的泛函:
其中 是连续可微函数类 的子集合,或者某种广义可微函数类的子集合。
1.3 一些例子
最速降线
在垂直平面上给定两点 和 ,其中 . 一个值点沿着一条连接这两点的光滑曲线仅凭借重力下滑。设初速度为零,问沿怎样的一条曲线滑行时间最短?
设 是连接 的一条曲线。因为有
所以
以及
因此滑行时间为
令
则映射
是一个泛函。问题转化为在 中求 以使得 最小。
极小曲面
在空间 中给定一条 Jordan 曲线 ,能否找到一个盘状的曲面 张在 上使其面积达到最小值? 首先定义从单位圆 到 的参数化映射(曲面函数)
其中 是单位圆 为 的闭包。需要注意的是,这里区分了 和 是因为 是一个几何对象,而 是一个函数对象, 的值域是 ,但 不是 。因此我们可以把 看成是 的值域,或者说 是 的一个参数化,这个关系描述为
也就是 是 的值域。
曲线的面积为
面积 就是关于曲面函数 的一个泛函。
这个泛函需要满足边界条件 与 同胚。转换为标准的泛函模型,
然后求在这个函数集合上的 的极小值。
这里的有几个符号需要澄清
- 表示曲面 的边界是 。
- 表示 在边界 上的取值集合与 同胚。、
- 这个同胚关系是由同胚映射 推导出来的,因为 与 是同胚的,所以 与 也是同胚的。
- 同胚就是指两个集合之间存在一个双射,并且这个双射和它的逆都是连续的。
图像分割
在一张图片中查明人像的边缘。设此图形占有平面区域 ,用函数 表示这张图片(信号强度)。我们需要寻求另一个函数 ,使之在人像的边缘处与原图像尽量吻合,且在其余出尽量不要有多余的响应。为了描写像的边缘,引入具有有限一维 Hausdorff 测度的闭子集合 ,其中 是 的一维 Hausdorff 测度。定义
其中 是权系数。这里的 不仅依赖于函数 ,而且还依赖于闭子集 ,这个集合可以看作是一个特征函数
因此 也是一个泛函,且依赖于 和 。
- 是 的一维 Hausdorff 测度,这里就是 的曲线长度。
- 平滑项的作用是减少发生强度的突变。
- 在这里表示人像的边缘区域,考虑到边缘区域未知,因此它也是一个变化量。
2. 泛函的极值与一阶变分
2.1 直觉动机
函数的导数(梯度)刻画的是在给定点 处,对自变量 给予微小扰动时对应函数 的函数值变化情况。极值点处的导数(梯度)对应是零,也就是说在极值点处,施加微小扰动,函数值是稳定且几乎不变化的。
参考函数极值的必要条件,我们对函数 施加其邻域空间 (是函数空间) 中的微小扰动 , 然后观察泛函 的变化情况。如果泛函关于扰动量大小 的变化率 ,则说明 在 附近是稳定的, 有可能就是泛函 的一个“极值点”。
2.2 泛函极值的定义(一元函数的例子)
给定两个集合 ,,和一个连续可微函数 。设泛函为
其中 , 是泛函 的定义域。
给定一个函数 。若存在 的一个邻域 ,使得
则称 是 的一个极小值点。类似地,当满足条件
则称 是 的一个极大值点。
注意
- 函数空间是必须由函数的定义域 和函数的值域 共同确定的,这意味着函数 邻域 中的全体函数必须具有与 相同的定义域和相同的值域。
- 符号规范上, 表征的是时间的集合, 表征的是状态的集合。
2.3 一阶变分的定义
继续挖掘泛函 对扰动大小 的变化率。由于 且 ,因此可以交换求导与积分:
计算中,发现这个变化率本身的数值与 的取值是无关的,它是一个关于 的线性项的系数。既然与 的数值无关,考虑到扰动项本身由 和 两部分构成,因此变化率 就可以认为是由 部分引起的、消除了 尺度影响的,归一化了的量。
我们定义这个量为一阶变分,记作 ,意即由扰动函数 引起的、在 处的泛函 的一阶变化量:
具体的计算公式为
注意
- 的值域不一定是 ,作为扰动函数,其取值可以是 中的任意数值。
2.4 泛函极值的必要条件
直觉告诉我们,极值点处的一阶变分应该为零。下面我们通过从极值点的定义出发,推导出这个结论。
这里我们首先取 (范数的定义可以自行选取)。目标是对任意的 ,都能存在 ,使得当 时,有
从而满足 的条件。事实上,取 (注意 时 ) 就可以实现这个目标。
将 代入到 中,从而得到极小值点的充要条件:
这个式子告诉我们不管是什么样的函数扰动,都可以通过构造恰到好处的 实现 。当 时,
但是当 时,
由此得出结论,当 是 的一个极小值点时,泛函的一阶变分 必须为零;类似地,当 是 的一个极大值点时,这个结果同样成立。于是我们得出了泛函极值点的必要条件:
2.5 Euler-Lagrange 方程
令一阶变分 可以缩小极值点的搜索范围,但是该方程的求解涉及到复杂的积分方程。为了在贴近实际应用场景的同时简化求解过程,对给定的函数空间 做一些边界取值的约束。
设泛函的定义域为
其中 是一个时间区间, 是一个状态空间, 是两个常数值。此外,为了保证经过扰动后的函数仍然属于 ,通常限定 ,也即 。
利用分部积分法,可以简化一阶变分
由于 ,因此
由于 是任意选取的,得到
这个微分方程就是 Euler-Lagrange 方程,它是寻找泛函极值的必要条件。也可以写成下面的形式
注意
- Euler-Lagrange 可以推广到 Lagrange 函数 依赖更高阶的函数导数的情况,例如含三阶导数的情况
- Euler-Lagrange 方程在分析力学中有重要应用,通过构造物理系统的 Lagrange 函数 ,其中 是系统的动能, 是系统的势能,可以通过求解 Euler-Lagrange 方程来得到系统的运动方程。
2.6 向量值函数的情况
现对函数 是向量值函数的情况做推广。设 是一个 维向量值一元函数,其中 是一个时间区间, 是一个状态空间。设 ,则泛函为
对应的一阶变分在计算中需要对 的每一个分量进行求偏导,得到
由于每一个 都是任意选取的,因此得到的是 个 Euler-Lagrange 方程构成的方程组:
3. 一阶变分导数
3.1 变分导数的定义
设有泛函 ,形式为
定义该泛函 对无约束函数 的一阶变分导数 (也称泛函导数) 是满足如下变分公式的函数:
其中 是变分空间内的函数扰动。
3.2 变分导数的计算
当 为一个区间,且 在区间 的端点处取值为零时,可以得到泛函导数的具体计算公式为
其中 是泛函的 Lagrange 函数,,。
求解泛函导数通常有两种方法
- 定义法:计算出 并比较泛函导数的定义从而得到
- Lagrange 函数法:判别出 Lagrange 函数的形式,从而直接套用泛函导数的计算公式 (对 有限制条件)
注意
- 泛函导数 是一个关于 的函数,其定义域为 ;
- 上面泛函导数的定义和计算是针对函数变量 无约束 的情况定义的;
3.3 约束函数的情况
当函数变量 有约束条件时,不能直接套用上述的定义和计算公式求得泛函导数。此时需要将约束问题通过 Lagrange 乘子法转化为等价的无约束情况,然后才可以使用相关的定义:
设 ,约束条件为点态等式约束 ,点态不等式约束 和积分态约束 。 引入 Lagrange 乘子 ,构造新的 Lagrange 函数
其中点态不等式约束的乘子函数 ,且满足互补松弛条件 。
然后新的泛函是
从而可以通过求解 的泛函导数来得到满足约束条件的泛函导数。
3.4 例子——微分熵的泛函导数
设 是一个概率密度函数,定义微分熵为
错误的想法
发现 "" 函数为 ,带入泛函导数的计算公式,得到
我们接下来用一阶变分的公式来验证
对比发现变分导数是符合定义公式的。
但是我们令变分导数 ,发现得到的分布是 ,这显然是不对的,因为 连归一化条件都不满足。
正确的解法
在微分熵的例子中,约束条件是 是一个概率密度函数,需要满足积分态约束 和点态不等式约束 。引入 Lagrange 乘子 ,得到真正的 Lagrange 函数为
求泛函导数为
由此解出
由于指数函数的非负性,根据互补松弛条件,得到
再代入归一化条件 ,得到
从而得到微分熵的极大值点为
验证了均匀分布是无矩约束情况下的微分熵的极大值点这个结论。
事实上,当去掉点态不等式约束 ,仅保留积分态约束 时,得到的结果也是 。
附录
A. 符号表
| 符号 | 含义 |
|---|---|
| 定义在函数定义域为 , 函数值域为 上的一阶连续可微函数空间 | |
| 定义在函数定义域为 , 函数值域为 上的一阶连续可微函数空间,且在区间端点处函数值为零 | |
| 泛函,定义在函数空间上的映射 | |
| 泛函的极值点 | |
| 变分函数,表示对 的微小扰动 | |
| 泛函 的一阶变分,表示 在 处对 的变化率 | |
| 拉格朗日函数,定义在时间 、函数值 和导数 上的函数 | |
| 泛函 对函数 的一阶变分导数 (泛函导数) |
参考文献
- [1] 张恭庆. 变分学讲义 [M]. 北京: 北京大学出版社, 2005.
- [2] Euler L. Methodus Inveniendi Lineas Curvas Maximi Minive Proprietate Gaudentes, Sive Solutio Problematis Isoperimetrici Latissimo Sensu Accepti [M]. Lausanne: Bousquet, 1744.
- [3] Lagrange J.-L. Essay on a New Method for Determining the Maxima and Minima of Indefinite Integral Formulae [J]. Miscellanea Taurinensia, 1760, 2: 179–252.

