神经算法反向传递_如何理解神经网络里面的反向传播算法

Ⅰ 如何理解神经网络里面的反向传播算法

反向传播算法（Backpropagation）是目前用来训练人工神经网络（Artificial Neural Network，ANN）的最常用且最有效的算法。其主要思想是：
（1）将训练集数据输入到ANN的输入层，经过隐藏层，最后达到输出层并输出结果，这是ANN的前向传播过程；
（2）由于ANN的输出结果与实际结果有误差，则计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层；
（3）在反向传播的过程中，根据误差调整各种参数的值；不断迭代上述过程，直至收敛。

反向传播算法的思想比较容易理解，但具体的公式则要一步步推导，因此本文着重介绍公式的推导过程。

1. 变量定义

上图是一个三层人工神经网络，layer1至layer3分别是输入层、隐藏层和输出层。如图，先定义一些变量：
表示第层的第个神经元连接到第层的第个神经元的权重；
表示第层的第个神经元的偏置；
表示第层的第个神经元的输入，即：

表示第层的第个神经元的输出，即：

其中表示激活函数。

2. 代价函数
代价函数被用来计算ANN输出值与实际值之间的误差。常用的代价函数是二次代价函数（Quadratic cost function）：

其中，表示输入的样本，表示实际的分类，表示预测的输出，表示神经网络的最大层数。

3. 公式及其推导
本节将介绍反向传播算法用到的4个公式，并进行推导。如果不想了解公式推导过程，请直接看第4节的算法步骤。
首先，将第层第个神经元中产生的错误（即实际值与预测值之间的误差）定义为：

本文将以一个输入样本为例进行说明，此时代价函数表示为：

公式1（计算最后一层神经网络产生的错误）：

其中，表示Hadamard乘积，用于矩阵或向量之间点对点的乘法运算。公式1的推导过程如下：

公式2（由后往前，计算每一层神经网络产生的错误）：

推导过程：

公式3（计算权重的梯度）：

推导过程：

公式4（计算偏置的梯度）：

推导过程：

4. 反向传播算法伪代码

输入训练集

对于训练集中的每个样本x，设置输入层（Input layer）对应的激活值：
前向传播：
，

计算输出层产生的错误：

反向传播错误：

使用梯度下降（gradient descent），训练参数：

Ⅱ 如何理解CNN神经网络里的反向传播backpropagation，bp算法

见附件，一个基本的用java编写的BP网络代码。BP（BackPropagation）神经网络是86年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hiddenlayer)和输出层(outputlayer)。

Ⅲ 反向传播算法是什么

反向传播算法，简称BP算法，适合于多层神经元网络的一种学习算法。

它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力。这是BP算法得以应用的基础。

反向传播算法动机简介

反向传播算法被设计为减少公共子表达式的数量而不考虑存储的开销。反向传播避免了重复子表达式的指数爆炸。然而，其他算法可能通过对计算图进行简化来避免更多的子表达式，或者也可能通过重新计算而不是存储这些子表达式来节省内存。

Ⅳ 如何理解CNN神经网络里的反向传播backpropagation，bp算法

类比来说类似于
几个人站成一排
第一个人看一幅画（输入数据），描述给第二个人（隐层）……依此类推，到最后一个人（输出）的时候，画出来的画肯定不能看了（误差较大）。
反向传播就是，把画拿给最后一个人看（求取误差），然后最后一个人就会告诉前面的人下次描述时需要注意哪里（权值修正）。

Ⅳ 读懂反向传播算法（bp算法）

反向传播算法可以说是神经网络最基础也是最重要的知识点。基本上所以的优化算法都是在反向传播算出梯度之后进行改进的。同时，也因为反向传播算法是一个递归的形式，一层一层的向后传播误差即可，很容易实现（这部分听不懂没关系，下面介绍）。不要被反向传播吓到，掌握其核心思想就很容易自己手推出来。

我们知道神经网络都是有一个loss函数的。这个函数根据不同的任务有不同的定义方式，但是这个loss函数的目的就是计算出当前神经网络建模出来输出的数据和理想数据之间的距离。计算出loss之后，根据反向传播算法就可以更新网络中的各种参数以此使loss不断下降，即可使输出的数据更加理想。
所以，现在的任务是，已知一个网络的loss之后，如何根据loss来更新参数呢？具体点即如何更新网络节点中的权重w和偏差b的值呢？

这粗侍辩里我们采用的是全连接神经网络进行说明。
要想把这个过程说清楚，首先需要将神经网络中各个参数用文字表达清楚。定义的就是w和b在网络中的准确位置。

对于表示的是神经网络中第层第k个节点到神经网络中第层第j个节点之间的权重。注意w的下标是首位表示的是节点后层节点的位置，末尾表谈闹示是前层节点的位置。理解这样的表达方式在后面的计算中会很好理解。
同理，对于b的表示：

b的表示相比于w要简单一些，符号表示第l层网络在第j个节点的偏置。无论w还是b的表示，上标都是表示层数。并且和表示都是第l层网络第j个节点的参数。所以该节点的输出可以表示为：

神经网络输出之后会经过一个激活函数，这用激活函数用表示，则经过激活函数输出为：

至此，根据上面符号、、、。我们可以对于神经网络里面每一个数据准确的表示了。

给定一个损失函数之后，用表示，说白了反向传播就是求∂C/∂w和∂C/∂b，然后将这个值乘以和对应的w，b进行相减就可以实现一次的参数更新了。为什么这样的操作就可以优化网络，减小loss值呢？

来源于导数的概念和速度相关。∂C/∂w和∂C/∂b相当于loss值C相对于w和v变化的速度。如果∂C/∂w是正的，则增大w，C也会增大，如果希望C减小的话，应该减小w；并且∂C/∂w的绝对值越大，表示w对C的值影响越大，w稍微有一点变化，C就会有大幅变化。如果要优化C变小，w应该对应的减少多少呢？也没有一个确定的答案。这里通过变化的速度和学习率相乘作为一个减小的值。通过多轮迭代。最终是希望c达到最小点。而当函数落入最小值的时候，无论是局部最小还是全局最小，其周围一定是平滑的。所以此时∂C/∂w和∂C/∂b将会变得很小甚至为0，即参数不在更新了。当函数在局部最小点处参数不在更新出现梯度消失的问题时，目前也有各种trick进行解决。不是这里的重点。

为了好说明，这里定义一个很简单的损失函数C：

接下来就是有意思的阶段了。这里还是利用上一节中∂C/∂w和∂C/∂b的解释。如果我们想要求出∂C/∂w和∂C/∂b的值，即具体的、对C影响速率的值，我们找一个中间变量∂C/∂ 。因为我们知道:

我们定义：

当我们知道了值之后，我们根据式子可以很容易求出。
利用导数的链式法则：

很容易推出来不是？同理可以求出：

可以看出通过媒介很容易求出∂C/∂w和∂C/∂b。那么我们现在来理解一下到底是什么意思，以及如何求出来每一个l层j节点的值。

根据定义：

可以看出来就是对于C的影响大小(联系之前说的导数和速率的关系)。而是第层第个神经元未进过激活函数之前的输出。所以我们可以理解为网络中第层第个神经元对loss的影响。所以很直观的看法就是我们先求出单个神经元对loss值得影响，然后再计算该神经元内部参数对于loss的影响。

ok,如果我们已经理解了为什么要引入变量以及如何利用该变量计算具体参数的梯度后，接下来我们就可以看看如何获得值。反向传岩缺播的名字我想也就是通过计算的方式而来的。是一层一层递归而来的。

既然说是递归的方式，我们来思考一下和之间有什么关系，如果找到这个关系之后，我们就可以默认我们如果知道最后一层网络节点的值，我们就可以获得倒数第二层网络节点的值，倒数第三层，倒数第四层，……以此推类即可获得整个网络的每个节点的值。至此我们的反向传播也基本完成了。
所以最重要的有两点：

先看问题1，直接根据求导的链式法则就可以找出两个的关系，具体公式如下，可以多看看手写一下，思路上也很简单。

觉得这样的链式公式还是很直观的，如果不好理解，可以自己画一个神经网络图，连上节点与节点之间的线，标上参数，然后推一下应该就能理解了。
这里的都表示的未经过激活函数的神经元的输出。表示激活函数。因为：

所以：

带入上式就可以得出：

至此就找出了和之间的关系了。
(还能简化，根据最开始我们定义的）。

理解起来就是网络中前面一层某一个神经元对于loss的影响与该层的后一层所有的神经元对loss的影响、该神经元的输出大小、该神经元与后一层神经元连接的权重有关系的，并且是一个累加的效应。这样的理解也是非常直观合乎常理的。

现在万事具备，只差问题2了。即假设最后一层网络是L，最后一层如何计算得出。最后一层的值就像一个导火索，一旦有了开始，就可以利用我们之前推出来的：公式进行反向传播了(反向传播还是很形象的不是？)。现在解决这个问题。这个问题就是和损失函数具体怎么定义有关系了。不过我们先不考虑C的具体形式，根据通用的链式法则我们可以得到：

这里需要注意的是最后一层激活函数使用的是哪种。最后一层激活函数在计算某一个神经元的输出时可能会结合其他节点的输出来计算。比如softmax激活函数，其输出的是一个概率值【0,1】。输出大小就是结合输出所有的值。

现在我们来考虑两个具体的损失函数，并且采用之前定义的均方误差损失函数：

求导为：
因为sigmoid输出的值仅仅和输入的x值有关。所以当时值为0.所以：

根据上面，BP推导有三部曲，先求出，再根据分别求出、。总结公式如下：

启动上面反传的导火索是最后一层的值，计算公式为：

根据最后一层不同类型的激活函数不同对待。

Ⅵ 如何理解神经网络里面的反向传播算法

反向传播算法（BP算法）主要是用于最常见的一类神经网络，叫多层前向神经网络，本质可以看作是一个general nonlinear estimator，即输入x_1 ... x_n 输出y，视图找到一个关系 y=f(x_1 ... x_n) （在这里f的实现方式就是神经网络）来近似已知数据。为了得到f中的未知参数的最优估计值，一般会采用最小化误差的准则，而最通常的做法就是梯度下降，到此为止都没问题，把大家困住了很多年的就是多层神经网络无法得到显式表达的梯度下降算法！

BP算法实际上是一种近似的最优解决方案，背后的原理仍然是梯度下降，但为了解决上述困难，其方案是将多层转变为一层接一层的优化：只优化一层的参数是可以得到显式梯度下降表达式的；而顺序呢必须反过来才能保证可工作——由输出层开始优化前一层的参数，然后优化再前一层……跑一遍下来，那所有的参数都优化过一次了。但是为什么说是近似最优呢，因为数学上除了很特殊的结构，step-by-step的优化结果并不等于整体优化的结果！不过，好歹现在能工作了，不是吗？至于怎么再改进（已经很多改进成果了），或者采用其他算法（例如智能优化算法等所谓的全局优化算法，就算是没有BP这个近似梯度下降也只是局部最优的优化算法）那就是新的研究课题了。

导航:首页 > 源码编译 > 神经算法反向传递

神经算法反向传递

与神经算法反向传递相关的资料