总微分(Jacobian 存在性) 定理#

设

f:\R^n\;\longrightarrow\;\R^m

在点 $x\in\R^n$ 可微（即在该点存在良好的线性近似）。那么有：

存在唯一的线性映射
$Df(x)\;\colon\;\R^n\;\to\;\R^m$
使得当增量 $h\to0$ 时，
$f(x+h)\;=\;f(x)\;+\;Df(x)\,h\;+\;o(\|h\|).$
注: $Df(x)$ 在这里表示一个映射，其中输入变量是 $h \in \mathbb{R}^n$ ，输出变量是 $Df(x)h \in \mathbb{R}^m$
在标准基下的矩阵表示——Jacobian
如果把 $Df(x)$ 在输入输出的标准基下写成矩阵形式，那么它就是我们常说的 Jacobian 矩阵
$J_f(x) =\begin{bmatrix} \dfrac{\partial f_1}{\partial x_1} & \cdots & \dfrac{\partial f_1}{\partial x_n} \\[6pt] \vdots & \ddots & \vdots \\[6pt] \dfrac{\partial f_m}{\partial x_1} & \cdots & \dfrac{\partial f_m}{\partial x_n} \end{bmatrix} \;\in\;\R^{m\times n}.$
也就是说，当 $f(x)=[f_1(x),\dots,f_m(x)]^T, \quad x=[x_1,\dots,x_n]^T$ 时，导数的“维度”就是 $\text{输出维度} m\times \text{输入维度} n$ —— 恰好能把输入的方向向量 $h\in\R^n$ 映射到输出的增量 $\Delta f\in\R^m$ 。

高阶张量的导数#

总微分定理可以推广到高阶张量上。设 $X \in \mathbb{R}^{a_1\times a_2\times \cdots\times a_n}$ 是一个 $n$ 阶张量， $Y \in \mathbb{R}^{b_1\times b_2\times \cdots\times b_m}$ 是一个 $m$ 阶张量。

根据张量导数的本质是描述了张量 $X$ 的每一个元素对张量 $Y$ 的每一个元素的标量导数的特殊张量排列，可以得到张量 $X$ 对张量 $Y$ 的导数是一个 $(m+n)$ 阶张量，记为

\frac{\partial Y}{\partial X} \in \mathbb{R}^{ b_1\times b_2\times \cdots\times b_m \times a_1\times a_2\times \cdots \times a_n}

具体到某对元素之间的导数元素可以表示为

$\left(\frac{\partial Y}{\partial X}\right)_{j_1 \cdots j_m, i_1 \cdots i_n} = \frac{\partial Y_{j_1 \cdots j_m}}{\partial X_{i_1 \cdots i_n}}$

高阶张量的总微分定理#

我们把张量 $X$ 和张量 $Y$ 分别向量化重排列，得到 $\text{vec}(X) \in \mathbb{R}^{a_1 a_2 \cdots a_n}$ 和 $\text{vec}(Y) \in \mathbb{R}^{b_1 b_2\cdots b_m}$ ，此时应用向量的总微分定理即可得到对应的高阶张量的总微分定理，以及对应的导数的 Jacobian 矩阵形式

J_Y(X) = \begin{bmatrix} \frac{\partial \text{vec}(Y)_1}{\partial \text{vec}(X)_1} & \frac{\partial \text{vec}(Y)_1}{\partial \text{vec}(X)_2} & \cdots & \frac{\partial \text{vec}(Y)_1}{\partial \text{vec}(X)_{a_1 a_2 \cdots a_n}} \\[6pt] \frac{\partial \text{vec}(Y)_2}{\partial \text{vec}(X)_1} & \frac{\partial \text{vec}(Y)_2}{\partial \text{vec}(X)_2} & \cdots & \frac{\partial \text{vec}(Y)_2}{\partial \text{vec}(X)_{a_1 a_2 \cdots a_n}} \\[6pt] \vdots & \vdots & \ddots & \vdots \\[6pt] \frac{\partial \text{vec}(Y)_{b_1 b_2 \cdots b_m}}{\partial \text{vec}(X)_1} & \frac{\partial \text{vec}(Y)_{b_1 b_2 \cdots b_m}}{\partial \text{vec}(X)_2} & \cdots & \frac{\partial \text{vec}(Y)_{b_1 b_2 \cdots b_m}}{\partial \text{vec}(X)_{a_1 a_2 \cdots a_n}} \end{bmatrix}

其中 $J_Y(X) \in \mathbb{R}^{(b_1 b_2 \cdots b_m)\times (a_1 a_2 \cdots a_n)}$ 。

总微分表达式#

根据总微分定理，当张量 $X$ 发生微小变化 $dX$ 时，张量 $Y$ 的变化为：

d\text{vec}(Y) = J_Y(X) \cdot d\text{vec}(X)

重新整形回张量形式：

dY = \text{reshape}\left(J_Y(X) \cdot \text{vec}(dX)\right)

换句话说，高阶张量的导数既可以表达成 $(m+n)$ 阶张量的形式，也可以表达成一个二阶展开矩阵的形式。这两种形式的表达都是很自然的。

二阶矩阵的自然在于行和列分别对应因变量和自变量
$(m+n)$ 阶张量的自然则是在于本质上的自然排布所形成的

两种表达形式是等价的, $(m+n)$ 阶张量形式与 Jacobian 矩阵形式的关系为

J_Y(X) = \text{reshape}\left(\frac{\partial Y}{\partial X}\right)

其中 reshape 操作将 $(m+n)$ 阶张量重新排列为矩阵形式。