深度学习笔记简单神经网络反向传播的推导

xiaoxiao2022-07-12 148

最近手推了一下神经网络梯度更新中的参数偏导，做一个笔记。

模型

我们考虑一个非常简单的神经网络，输入embedding后只通过一个全连接层，然后就softmax输出预测值

Created with Raphaël 2.2.0 Input X: 1xn Embedding Layer Z1 = WX: 1xN Activation Layer (Relu) Z2 = relu(Z1): 1xN Fully Connected Layer Z3 = wZ2+b: 1xK Activation Layer (Softmax) Y = σ(Z3): 1xK Prediction Y: 1xK

先只考虑一个样本X，feature有n个维度。embedding层可以视为一个nxN的矩阵，得到Z1的维度被扩展为N，经过relu激活层后输出。然后连接一层有K个神经元的全连接层，权重w是一个NxK的矩阵，b是一个1xK的向量，输出Z3经过softmax层后得到样本属于K个类中类别 $i$ 的概率值 $Y_i$ 。

计算梯度

模型损失函数取简单的交叉熵损失函数： $\sum\limits_{i=1}^{K} y \times lnY}$ 其中y是真实值，Y是预测值， $i = 1, 2, 3, . . ., K$ 表示K个分类

计算全连接层输出

{Z_{3i}}

的梯度

$\begin{aligned} \frac{\partial L}{\partial Z_{3i}} = \frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z_{3i}} &= \sum\limits_{j=1}^{K} \frac{\partial L}{\partial Y_j} \times \frac{\partial Y_j}{\partial Z_{3i}} \\ &= \sum\limits_{j=1}^{K} -y_j \times \frac{1}{Y_j} \times \frac{\partial Y_j}{\partial Z_{3i}} \end{aligned}$ 计算softmax导数时需要分 ${j = i}$ 和 $\neq i}$ 两种情况考虑，所以这里将L求和中元素令为j，与i加以区分 $i = j$ 时 $\frac{\partial Y_j}{\partial Z_{3i}} = \frac{\partial Y_i}{\partial Z_{3i}} = \frac{\partial }{\partial Z_{3i}} [\frac{e^{Z_{3i}}}{\sum\limits_{k=1}^{K} e^{Z_{3k}}}] = \frac{e^{Z_{3i}} \times \sum\limits_{k=1}^{K} e^{Z_{3k}} - e^{Z_{3i}} \times e^{Z_{3i}}}{(\sum\limits_{k=1}^{K} e^{Z_{3k}})^2} = Y_i(1-Y_i)$ $\neq j$ 时（不知道为什么不等于号的斜杠会飘） $\frac{\partial Y_j}{\partial Z_{3i}} = \frac{\partial }{\partial Z_{3i}} [\frac{e^{Z_{3j}}}{\sum\limits_{k=1}^{K} e^{Z_{3k}}}] = \frac{ - e^{Z_{3j}} \times e^{Z_{3i}}}{(\sum\limits_{k=1}^{K} e^{Z_{3k}})^2} = -Y_i Y_j$ $\begin{aligned} \frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z_{3i}} &= \sum\limits_{j=1}^{K} -y_j \times \frac{1}{Y_j} \times \frac{\partial Y_j}{\partial Z_{3i}} \\ &= \sum\limits_{j=1, j \neq i}^{K} -y_j \times \frac{1}{Y_j} \times (-Y_i Y_j) + -y_i \times \frac{1}{Y_i} \times Y_i(1-Y_i) \\ &= \sum\limits_{j=1}^{K} -y_j \times \frac{1}{Y_j} \times (-Y_i Y_j) + \ -y_i \times \frac{1}{Y_i} \times Y_i \\ &= \sum\limits_{j=1}^{K} y_j \times Y_i - y_i \end{aligned}$ 对于预测分类问题，只有一类的值为1，其余均为0，即 $\sum\limits_{i=1}^{K} y_i =1$ ，可以进一步将上式简化为 $\frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z_{3i}} = Y_i - y_i$

考虑一个最简单的二分类问题， $\sum\limits_{i=1}^{2} y \times lnY = - y \times lnY - (1-y) \times ln(1-Y) \\ Y=\frac{1}{1+e^{-z}} \\ \frac{\partial L}{\partial Z} = \frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z} = [- y \times \frac{1}{Y} + (1-y) \times \frac{1}{Y(1-Y)} ] \times Y(1-Y) = Y - y$

计算Embedding矩阵

{W_{lm}}

的梯度

\begin{aligned} \frac{\partial L}{\partial W_{lm}} &= \frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z_3} \times \frac{\partial Z_3}{\partial Z_2} \times \frac{\partial Z_2}{\partial Z_1} \times \frac{\partial Z_1}{\partial W_{lm}} \\ &= \sum\limits_{i=1}^{K} [\frac{\partial L}{\partial Y} \times \frac{\partial Y}{\partial Z_{3i}}]_1 \times [\frac{\partial Z_{3i}}{\partial Z_2} \times \frac{\partial Z_2}{\partial Z_1} \times \frac{\partial Z_1}{\partial W_{lm}}]_2 \end{aligned}

_1

中我们在前面已经得到了，这里只用计算

_2

。

\begin{aligned} \frac{\partial Z_{3i}}{\partial Z_2} \times \frac{\partial Z_2}{\partial Z_1} \times \frac{\partial Z_1}{\partial W_{lm}} &= \frac{\partial Z_{3i}}{\partial Z_{2m}} \times \frac{\partial Z_{2m}}{\partial Z_{1m}} \times \frac{\partial Z_{1m}}{\partial W_{lm}} \\ &= w_{mi} \times max(\frac{Z_{1m}}{|Z_{1m}|}, 0) \times X_l \end{aligned}

Note:

Z_{3i} = \sum\limits_{j=1}^N Z_{2j} w_{ji}

Z_{1m} = \sum\limits_{j=1}^n X_{j} W_{jm}

合起来得到

\frac{\partial L}{\partial W_{lm}} = \sum\limits_{i=1}^{K} (Y_i - y_i) \times w_{mi} \times max(\frac{Z_{1m}}{|Z_{1m}|}, 0) \times X_l

顺便推荐一下这篇博客，讲为何用softmax而不是MSE： https://blog.csdn.net/xg123321123/article/details/80781611

最新回复(0)

深度学习笔记 简单神经网络反向传播的推导

模型

计算梯度

深度学习笔记简单神经网络反向传播的推导