矩阵向量的梯度 - Ada Lovelemon

矩阵向量的梯度

首次发布: 2025-07-20

... 次访问

这里介绍求解矩阵或者向量梯度的一个便捷方法。

符号定义#

为了方便讨论，我们统一采用梯度张量的形式，而不是Jacobian 矩阵的形式，特此说明。

例如，设有函数 $\mathbf{y} = \mathbf{J}(\mathbf{x})$ ，其中 $\mathbf{y} \in \mathbb{R}^{m\times 1}$ ， $\mathbf{x}\in \mathbb{R}^{n\times 1}$ ，则其梯度张量定义为：

\nabla_\mathbf{x} \mathbf{y} = \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1} \\[6pt] \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2} \\[6pt] \vdots & \vdots & \ddots & \vdots \\[6pt] \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix} \in \mathbb{R}^{n \times m}

这个形状的设定是基于对微分的考量, $d\mathbf{y} = (\frac{\partial \mathbf{y}}{\partial \mathbf{x}})^\top d\mathbf{x}$ ，这个形式更符合矩阵向量的点乘形式，因此梯度张量的形状是 $n\times m$ 才能正好符合这个微分公式。

链式法则#

基于上述梯度张量的定义，我们可以使用链式法则来求解复合函数的梯度。

例如，对于复合函数 $\mathbf{y} = \mathbf{f}(\mathbf{w}), \mathbf{w} = \mathbf{g}(\mathbf{z}), \mathbf{z} = \mathbf{h}(\mathbf{x})$ ，有

\nabla_\mathbf{x} \mathbf{y} = \nabla_\mathbf{x} \mathbf{z}\ \nabla_\mathbf{z} \mathbf{w}\ \nabla_\mathbf{w} \mathbf{y}

或者换成”偏导”符号的写法为

\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \frac{\partial \mathbf{z}}{\partial \mathbf{x}} \frac{\partial \mathbf{w}}{\partial \mathbf{z}} \frac{\partial \mathbf{y}}{\partial \mathbf{w}}

注意，最内层函数的局部梯度要写在最左边。不妨拿个例子验证一下，设 $\mathbf{y} \in \mathbb{R}^{2\times 1}$ ， $\mathbf{w} \in \mathbb{R}^{3\times 1}$ ， $\mathbf{z} \in \mathbb{R}^{4\times 1}$ ， $\mathbf{x} \in \mathbb{R}^{5\times 1}$ ，则

\frac{\partial \mathbf{z}}{\partial \mathbf{x}} \in \mathbb{R}^{5\times 4},\quad \frac{\partial \mathbf{w}}{\partial \mathbf{z}} \in \mathbb{R}^{4\times 3},\quad \frac{\partial \mathbf{y}}{\partial \mathbf{w}} \in \mathbb{R}^{3\times 2}

由此 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}} \in \mathbb{R}^{5\times 2}$ ，符合我们对梯度张量的定义。

如何求矩阵向量梯度张量#

虽然通常的矩阵分析书中都给出了常见的矩阵向量梯度张量的公式，但是对于复杂的函数，直接采用向量形式推导并不是一个好方法，通常会由于不清楚某个向量的导数公式而导致无从下手。因此这里更推荐的方法是，大不了就变成标量形式的导数 $\frac{\partial \mathbf{y}_j}{\partial \mathbf{x}_i}$ ，然后根据具体的形状重新排列即可。

例如，给定函数

J(\theta) = -\frac{1}{N}\left[y^\top \log s + (1 - y)^\top \log (1 - s)\right]

其中 $s, y \in \mathbb{R}^{N \times 1}, J(\theta) \in \mathbb{R}$ ， $\log(\cdot)$ 是逐元素的对数函数, $N$ 为标量常数。

我们可以先计算每个元素的导数

\begin{aligned} \frac{\partial J}{\partial s_i} &= \frac{\partial}{\partial s_i} \left[-\frac{1}{N} \sum_{i=1}^{N} \left(y_i \log s_i + (1 - y_i) \log (1 - s_i)\right)\right] \\ &= -\frac{1}{N} \left[\frac{y_i}{s_i} - \frac{1 - y_i}{1 - s_i}\right] \\ &= \frac{1}{N} \frac{s_i - y_i}{s_i(1 - s_i)} \end{aligned}

然后将其整理成梯度张量的形式。注意到标量导数中并没有涉及到其他下标元素的值，所以这里的运算可以统统用逐元素计算表示

\nabla_s J = \frac{1}{N} \frac{s - y}{s \odot (1 - s)}

其中 $\odot$ 表示逐元素乘法, 除法也是逐元素的。

例子：Logistic 回归的梯度#

设 $h(x) = \sigma(\theta^\top x), \quad x, \theta \in \mathbb{R}^{d \times 1}$ ，假设有数据集 $X \in \mathbb{R}^{N\times d}, y \in \mathbb{R}^{N \times 1}$ ，则交叉熵损失为

\begin{aligned} J(\theta) &= -\frac{1}{N} \sum_{i=1}^{N} \left[y_i \log h(x_i) + (1 - y_i) \log (1 - h(x_i))\right] \\ &= -\frac{1}{N} \left[y^\top \log h(X) + (1 - y)^\top \log (1 - h(X))\right] \\ \end{aligned}

我们可以先计算每个元素的导数

\begin{align*} \frac{\partial J}{\partial \theta_k} &= \frac{\partial}{\partial \theta_k} \left[-\frac{1}{N} \sum_{i=1}^{N} \left[y_i \log h(x_i) + (1 - y_i) \log (1 - h(x_i))\right]\right] \\ &= -\frac{1}{N} \sum_{i=1}^{N} \left[y_i \frac{1}{h(x_i)} \frac{\partial h(x_i)}{\partial \theta_k} - (1 - y_i) \frac{1}{1 - h(x_i)} \frac{\partial h(x_i)}{\partial \theta_k}\right] \\ &= -\frac{1}{N} \sum_{i=1}^{N} \left[y_i \frac{1}{h(x_i)} h(x_i)(1 - h(x_i)) x_{ik} - (1 - y_i) \frac{1}{1 - h(x_i)} h(x_i)(1 - h(x_i)) x_{ik}\right] \\ &= -\frac{1}{N} \sum_{i=1}^{N} \left[y_i (1 - h(x_i)) x_{ik} - (1 - y_i) h(x_i) x_{ik}\right] \\ &= -\frac{1}{N} \sum_{i=1}^{N} \left[(y_i - h(x_i)) x_{ik}\right] \\ \end{align*}

其中 $x_i = (X[i, :])^\top$ 是第 $i$ 个样本的特征向量， $x_{ik} = X[i, k]$ 是第 $i$ 个样本的第 $k$ 个特征。

然后将其整理成梯度张量的形式，得到

\begin{aligned} \nabla_\theta J &= -\frac{1}{N} \sum_{i=1}^{N} (y_i - h(x_i)) \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{id}\end{bmatrix} \\ &= -\frac{1}{N} \sum_{i=1}^{N} (y_i - h(x_i)) (X[i, :])^\top \\ &= -\frac{1}{N} X^\top (y - h(X)) \\ &= -\frac{1}{N} X^\top \left(y - \sigma(X\theta)\right) \end{aligned}

当然，这个结果也可以直接使用链式法则来推导得到，此处不赘述。