使对称失效。梯度下降法中每一次迭代都按照如下公式对参数和进行更新: 其中是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。我们首先来讲一下如何使用反向传播算法来计算和,这两项是单个样例的代价函数的偏导数。一旦我们求出该偏导数,就可以推导出整体代价函数的偏导数: 以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于而不是。反向传播算法的思路如下:给定一个样例,我们首先进行“前向传导”运算,计算出网络中所有的激活值,包括的输出值。之后,针对第层的每一个节点,我们计算出其“残差”,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的激活值与实际值之间的差距,我们将这个差距定义为(第层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第层节点)残差的加权平均值计算,这些节点以作为输入。下面将给出反向传导算法的细节: 1.进行前馈传导计算,利用前向传导公式,得到直到输出层的激活值。 2.对于第层(输出层)的每个输出单元,我们根据以下公式计算残差: [译者注: ] 3.对的各个层, 第层的第个节点的残差计算方法如下: {译者注: 将上式中的与的关系替换为与的关系,就可以得到: 以上逐次从后向前求导的过程即为“反向传导”的本意所在。] 4.计算我们需要的偏导数,计算方法如下: 最后,我们用矩阵-向量表示法重写以上算法。我们使用“”表示向量乘积运算符(在 Matlab或 Octave里用“.*”表示, 也称作阿达马乘积)。若, 则。在上一个教程中我们扩展了的定义, 使其包含向量运算, 这里我们也对偏导数也做了同样的处理(于是又有)。那么,反向传播算法可表示为以下几个步骤: 1.进行前馈传导计算,利用前向传导公式,得到直到输出层的激活值。 2.对输出层(第层),计算: