神经网络算法教程_什么是BP神经网络

1. 神经网络浅谈

人工智能技术是当前炙手可热的话题，而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段，展现了深度学习的强大威力，后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看，以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达（NVIDIA）公司近年来的股价情况，该公司的主要产品是“图形处理器”（GPU），而GPU被证明能大大加快神经网络的训练速度，是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好，话不多说，下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系，是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞：

一个神经元通常具有多个树突，主要用来接受传入信息，而轴突只有一条，轴突尾端有许多轴突末梢，可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接，从而传递信号。

下图是一个经典的神经网络（Artificial Neural Network,ANN）：

乍一看跟传统互联网的拓扑图有点类似，这也是称其为网络的原因，不同的是节点之间通过有向线段连接，并且节点被分成三层。我们称图中的圆圈为神经元，左边三个神经元组成的一列为输入层，中间神经元列为隐藏层,右边神经元列为输出层，神经元之间的箭头为权重。

神经元是计算单元，相当于神经元细胞的细胞核，利用输入的数据进行计算，然后输出，一般由一个线性计算部分和一个非线性计算部分组成；输入层和输出层实现数据的输入输出，相当于细胞的树突和轴突末梢；隐藏层指既不是输入也不是输出的神经元层，一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元，而是每条连接线对应的权重。每条连接线对应一个权重，也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化，多次重复的学习能让回路变得更加粗壮，使得信号的传递速度加快，最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此，如果某种映射关系出现很多次，那么在训练过程中就相应调高其权重。

1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP：

符号化后的模型如下：

Sum函数计算各权重与输入乘积的线性组合，是神经元中的线性计算部分，而sgn是取符号函数，当输入大于0时，输出1，反之输出0，是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，权重的值都是预先设置的，因此不能学习。该模型虽然简单，并且作用有限，但已经建立了神经网络大厦的地基

1958年，计算科学家Rosenblatt提出了由两层神经元组成(一个输入层，一个输出层)的神经网络。他给它起了一个名字–“感知器”（Perceptron）

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程，在当时引起了轰动，掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年，人工智能领域的巨擘Minsky指出这点，并同时指出感知器对XOR（异或，即两个输入相同时输出0，不同时输出1）这样的简单逻辑都无法解决。所以，明斯基认为神经网络是没有价值的。

随后，神经网络的研究进入低谷，又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题，但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

下图为两层神经网络（输入层一般不算在内）：

上图中，输出层的输入是上一层的输出。

向量化后的公式为：

注意：

每个神经元节点默认都有偏置变量b，加上偏置变量后的计算公式为：

同时，两层神经网络不再使用sgn函数作为激励函数，而采用平滑的sigmoid函数：

σ(z)=1/(1+e^(-z) )

其图像如下：

理论证明：两层及以上的神经网络可以无限逼近真实的对应函数，从而模拟数据之间的真实关系，这是神经网络强大预测能力的根本。但两层神经网络的计算量太大，当时的计算机的计算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向传播（Backpropagation，BP）算法，解决了两层神经网络所需要的复杂计算量问题，带动了业界使用两层神经网络研究的热潮。

但好景不长，算法的改进仅使得神经网络风光了几年，然而计算能力不够，局部最优解，调参等一系列问题一直困扰研究人员。90年代中期，由Vapnik等人发明的SVM（Support Vector Machines，支持向量机）算法诞生，很快就在若干个方面体现出了对比神经网络的优势：无需调参；高效；全局最优解。

由于以上原因，SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷， AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络（不包括输入层），更多情况下指两层以上的神经网络。

2006年，Hinton提出使用预训练 ”（pre-training）和“微调”(fine-tuning)技术能优化神经网络训练，大幅度减少训练多层神经网络的时间

并且，他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”，以此为起点，“深度学习”纪元开始了：）

“深度学习”一方面指神经网络的比较“深”，也就是层数较多；另一方面也可以指神经网络能学到很多深层次的东西。研究发现，在权重参数不变的情况下，增加神经网络的层数，能增强神经网络的表达能力。

但深度学习究竟有多强大呢？没人知道。2012年，Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了近11个百分点，充分证明了多层神经网络识别效果的优越性。

同时，科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要，在同等情况下，GPU的速度要比CPU快50-200倍，这使得神经网络的训练时间大大减少，最终再一次掀起了神经网络研究的热潮，并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石，深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾，既有被捧上神坛的高潮，也有无人问津的低谷，中间经历了数次大起大落，我们姑且称之为“三起三落”吧，其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然，对于神经网络我们也要保持清醒的头脑。由上图，每次神经网络研究的兴盛期持续10年左右，从最近2012年算起，或许10年后的2022年，神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种，其模型训练的目的，就是使得参数尽可能的与真实的模型逼近。理论证明，两层及以上的神经网络可以无限逼近真实的映射函数。因此，给定足够的训练数据和训练时间，总能通过神经网络找到无限逼近真实关系的模型。

具体做法：首先给所有权重参数赋上随机值，然后使用这些随机生成的参数值，来预测训练数据中的样本。假设样本的预测目标为yp ，真实目标为y，定义值loss，计算公式如下：

loss = (yp -y) ^2

这个值称之为损失（loss），我们的目标就是使对所有训练数据的损失和尽可能的小，这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导，但由于参数不止一个，求导后计算导数等于0的运算量很大，所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量，由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y)，则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度，然后让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个时候，所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程：

在神经网络模型中，由于结构复杂，每次计算梯度的代价很大。因此还需要使用反向传播（Back Propagation）算法。反向传播算法利用了神经网络的结构进行计算，不一次计算所有参数的梯度，而是从后往前。首先计算输出层的梯度，然后是第二个参数矩阵的梯度，接着是中间层的梯度，再然后是第一个参数矩阵的梯度，最后是输入层的梯度。计算结束以后，所要的两个参数矩阵的梯度就都有了。当然，梯度下降只是其中一个优化算法，其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后，我们就确定了整个神经网络的权重，完成神经网络的训练。

在神经网络中一样的参数数量，可以用更深的层次去表达。

由上图，不算上偏置参数的话，共有三层神经元，33个权重参数。

由下图，保持权重参数不变，但增加了两层神经元。

在多层神经网络中，每一层的输入是前一层的输出，相当于在前一层的基础上学习，更深层次的神经网络意味着更深入的表示特征，以及更强的函数模拟能力。更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。

如上图，第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到“边缘”组成的“形状”的特征，第三个隐藏层学习到由“形状”组成的“图案”的特征，最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

前面提到，明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”（XOR）非线性问题，所以神经网络的研究没有前途，但当增加一层神经元后，异或问题得到了很好地解决，原因何在？原来从输入层到隐藏层，数据发生了空间变换，坐标系发生了改变，因为矩阵运算本质上就是一种空间变换。

如下图，红色和蓝色的分界线是最终的分类结果，可以看到，该分界线是一条非常平滑的曲线。

但是，改变坐标系后，分界线却表现为直线，如下图：

同时，非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器，提取特征是一个非常重要的前置工作。在正式训练之前，需要花费大量的时间在数据的清洗上，这样分类器才能清楚地知道数据的维度，要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中，由于巨量的线性分类器的堆叠（并行和串行）以及卷积神经网络的使用，它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略，这样我们在处理的时候，就不需要使用太多的技巧用于数据的清洗了。有趣的是，业内大佬常感叹，“你可能知道SVM等机器学习的所有细节，但是效果并不好，而神经网络更像是一个黑盒，很难知道它究竟在做什么，但工作效果却很好”。

人类对机器学习的环节干预越少，就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络入门教程，用户可以非常方便地在网页上更改神经网络的参数，并且能看到实时的学习效率和结果，非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下：

2) 深度学习领域大佬吴恩达不久前发布的《神经网络和深度学习》MOOC，现在可以在网易云课堂上免费观看了，并且还有中文字幕。

3) 《神经网络于深度学习》（Michael Nielsen着）、《白话深度学习与TensorFlow》也是不错的入门书籍。

2. BP神经算法是什么能给点既通俗易懂又比较详细的回答吗

BP（Back Propagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hide layer)和输出层(output layer)。

BP神经网络算法是在BP神经网络现有算法的基础上提出的，是通过任意选定一组权值，将给定的目标输出直接作为线性方程的代数和来建立线性方程组，解得待求权，不存在传统方法的局部极小及收敛速度慢的问题，且更易理解。
1 传统的BP算法简述
BP算法是一种有监督式的学习算法，其主要思想是：输入学习样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量尽可能地接近，当网络输出层的误差平方和小于指定的误差时训练完成，保存网络的权值和偏差。具体步骤如下：（1）初始化，随机给定各连接权［w］,［v］及阀值θi，rt。（2）由给定的输入输出模式对计算隐层、输出层各单元输出 bj＝f（■wijai-θj） ct＝f（■vjtbj－rt）式中：bj为隐层第j个神经元实际输出；ct为输出层第t个神经元的实际输出；wij为输入层至隐层的连接权；vjt为隐层至输出层的连接权。 dtk＝（ytk－ct）ct（1－ct） ejk＝［■dtvjt］ bj（1－bj）式中：dtk为输出层的校正误差；ejk为隐层的校正误差。（3）计算新的连接权及阀值，计算公式如下： vjt（n＋1）＝vjt（n）＋?琢dtkbj wij（n＋1）＝wij（n）＋?茁ejkaik rt（n＋1）＝rt（n）＋?琢dtk θj（n＋1）=θj（n）＋?茁ejk 式中：?琢，?茁为学习系数（0＜?琢＜1，0＜?茁＜1）。（4）选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。传统的BP算法，实质上是把一组样本输入/输出问题转化为一个非线性优化问题，并通过负梯度下降算法，利用迭代运算求解权值问题的一种学习方法，但其收敛速度慢且容易陷入局部极小，为此提出了一种新的算法，即高斯消元法。
2 改进的BP网络算法
2．1 改进算法概述此前有人提出：任意选定一组自由权，通过对传递函数建立线性方程组，解得待求权。本文在此基础上将给定的目标输出直接作为线性方程等式代数和来建立线性方程组，不再通过对传递函数求逆来计算神经元的净输出，简化了运算步骤。没有采用误差反馈原理，因此用此法训练出来的神经网络结果与传统算法是等效的。其基本思想是：由所给的输入、输出模式对通过作用于神经网络来建立线性方程组，运用高斯消元法解线性方程组来求得未知权值，而未采用传统BP网络的非线性函数误差反馈寻优的思想。 2．2 改进算法的具体步骤对给定的样本模式对，随机选定一组自由权，作为输出层和隐含层之间固定权值，通过传递函数计算隐层的实际输出，再将输出层与隐层间的权值作为待求量，直接将目标输出作为等式的右边建立方程组来求解。现定义如下符号（见图1）：x （p）输入层的输入矢量；y （p）输入层输入为x （p）时输出层的实际输出矢量；t （p）目标输出矢量；n，m，r分别为输入层、隐层和输出层神经元个数；W为隐层与输入层间的权矩阵；V为输出层与隐层间的权矩阵。具体步骤如下：（1）随机给定隐层和输入层间神经元的初始权值wij。（2）由给定的样本输入xi（p）计算出隐层的实际输出aj（p）。为方便起见将图1网络中的阀值写入连接权中去，令：隐层阀值θj＝wnj，x（n）＝－1，则： aj（p）=f（■wijxi（p））（j＝1，2…m－1）。（3）计算输出层与隐层间的权值vjr。以输出层的第r个神经元为对象，由给定的输出目标值tr（p）作为等式的多项式值建立方程，用线性方程组表示为： a0（1）v1r+a1（1）v2r+…+am（1）vmr=tr（1）a0（2）v1r+a1（2）v2r+…+am（2）vmr=tr（2） ……a0（p）v1r+a1（p）v2r+…+am（p）vmr=tr（p）简写为： Av＝T 为了使该方程组有唯一解，方程矩阵A为非奇异矩阵，其秩等于其增广矩阵的秩，即：r（A）＝r（A┊B），且方程的个数等于未知数的个数，故取m＝p，此时方程组的唯一解为： Vr＝［v0r，v2r，…vmr］（r＝0，1，2…m－1）（4）重复第三步就可以求出输出层m个神经元的权值，以求的输出层的权矩阵加上随机固定的隐层与输入层的权值就等于神经网络最后训练的权矩阵。
3 计算机运算实例
现以神经网络最简单的XOR问题用VC编程运算进行比较（取神经网络结构为2－4－1型），传统算法和改进BP算法的误差（取动量因子α＝0．001 5，步长η＝1．653）

3. 求人工神经网络的具体算法，数学模型，比如求一个函数最优值之类的，不要各种乱七八糟的介绍，谢谢

神经网络就像多项式或者线性模型一样，是个看不见表达式的模型，它的表达式就是网络，它比一般模型具有更高的自由度和弹性；同时它是一个典型的黑箱模型方法；比多项式等模型还黑。优化算法，就是寻优的算法，所谓寻优过程，就是寻找使目标函数最小时（都是统一表示成寻找使函数具有最小值）的自变量的值。回归或者拟合一个模型,例如用一个多项式模型去拟合一组数据，其本质就是寻找使残差平方和最小的参数值，这就是一个寻优的过程，其实就是寻找使函数F（x）值最小时的x的值；对于这个具体的寻找过程就涉及到算法问题，就是如何计算。所谓算法，是数值分析的一个范畴，就是解这问题的方法；例如一个一元二次方程 x^2-3x+1=0的解法，因为简单可以直接求解，也可以用牛顿逐个靠近的方法求解，也即是迭代，慢慢接近真实解，如此下去不断接近真值，要注意迭代算法是涉及算法精度的，这些迭代算法是基于计算机的，算法的初衷也是用近似的算法用一定的精度来接近真实值。比如上面的方程也可以用遗传算法来解，可以从一些初始值最终迭代到最佳解。神经网络在寻找网络的参数即权值的时候，也有寻找使训练效果最好的过程，这也是寻优的过程，这里涉及到了算法就是所谓的神经网络算法，这和最小二乘算法是一样的道理；例如做响应面的时候，其实就是二次回归，用最小二乘得到二次模型的参数，得到一个函数，求最大产物量就是求函数模型的最大值，怎么算呢？顶点处如果导数为0，这个地方对应的x值就是最优的，二次模型简单可以用偏导数=0来直接解决，这过程也可以遗传算法等来解决。说到底所谓寻优的本质就是，寻找函数极值处对应的自变量的值。

4. 清华名师用30小时讲解Python教程，整整400多集，拿走不谢

本套 Python 课程 400 集，从零基础开始，全面讲解 Python 基础，直达可以手写神经网络的境界。

我们创造性的增加了：手写数据结构和算法、手写神经网络项目。让零基础学员在学习Python 时就开始接触高深的底层知识、神经网络底层实现的知识。

内容共分 26 章，讲解了 Python 基础的方方面面，可以作为 Python 学习者的“宝典”。同时，穿插了 3 个大型实战项目：

1. 坦克大战游戏。

采用游戏开发的方式，寓教于乐，快乐中掌握 Python 基础。

2. 手写算法和数据结构。

算法和数据结构是很多大公司面试的不二选择，我们这里讲解内容的同时，手把手带你实现一个个底层算法，将内功练扎实。

3. 手写神经网络。

Python 是人工智能的第一语言。我们创造性的在基础课程中就加入了如何编写一个自己的神经网络，为踏入神经网络的大门打下“坚实基础”。

本套视频一共 400 集，本套视频共分 3 季：

第一季【基础篇】Python 基础（115 集）

第二季【提高篇】Python 深入和扩展（100 集）

第三季【扩展篇】网络编程、多线程、扩展库（85 集）

第四季【高手篇】算法、Python 源码、函数式编程、手工实现神经网络（100 集）

一 Python基础

二数据库编程

三 Liunx系统

四网页编程

五 VUE框架

六 Flask 框架

获取方式：

私信“1”获取

私信方法：点击头像点击回复“1”即可

5. 什么是BP神经网络

BP算法的基本思想是：学习过程由信号正向传播与误差的反向回传两个部分组成；正向传播时，输入样本从输入层传入，经各隐层依次逐层处理，传向输出层，若输出层输出与期望不符，则将误差作为调整信号逐层反向回传，对神经元之间的连接权矩阵做出处理，使误差减小。经反复学习，最终使误差减小到可接受的范围。具体步骤如下：
1、从训练集中取出某一样本，把信息输入网络中。
2、通过各节点间的连接情况正向逐层处理后，得到神经网络的实际输出。
3、计算网络实际输出与期望输出的误差。
4、将误差逐层反向回传至之前各层，并按一定原则将误差信号加载到连接权值上，使整个神经网络的连接权值向误差减小的方向转化。
5、対训练集中每一个输入—输出样本对重复以上步骤，直到整个训练样本集的误差减小到符合要求为止。

6. 神经网络（Neural Network）

（1）结构：许多树突（dendrite）用于输入，一个轴突（axon）用于输出。

（2）特性：兴奋性和传导性。兴奋性是指当信号量超过某个阈值时，细胞体就会被激活，产生电脉冲。传导性是指电脉冲沿着轴突并通过突触传递到其它神经元。

（3）有两种状态的机器：激活时为“是”，不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量，以及突触的性质（抑制或加强）。

（1）神经元——不重要

① 神经元是包含权重和偏置项的函数：接收数据后，执行一些计算，然后使用激活函数将数据限制在一个范围内（多数情况下）。

② 单个神经元：线性可分的情况下，本质是一条直线，，这条直线将数据划分为两类。而线性分类器本身就是一个单层神经网络。

③ 神经网络：非线性可分的情况下，神经网络通过多个隐层的方法来实现非线性的函数。

（2）权重/参数/连接（Weight）——最重要

每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳，以使得整个网络的预测效果最好。

（3）偏置项（Bias Units）——必须

① 如果没有偏置项，所有的函数都会经过原点。

② 正则化偏置会导致欠拟合：若对偏置正则化，会烂猛导致激活变得更加简单，偏差就会上升，学习的能力就会下降。

③ 偏置的大小度量了神经元产生激励（激活）的难易程度。

（1）定义：也称为转换函数，是一种将输入 (input) 转成输出 (output) 的函数。

（2）作用：一般直线拟合的精确度要比曲线差很多，引入激活嫌亏函数能给神经网络增加一些非线性的特性。

（3）性质：

① 非线性：导数不是常数，否则就退化成直线。对于一些画一条直线仍然无法分开的问题，非线性可以把直线变弯，就能包罗万象；

② 可微性：当优化方法是基于梯度的时候，处处可导为后向传播算法提供了核心芹历神条件；

③ 输出范围：一般限定在[0,1]，使得神经元对一些比较大的输入会比较稳定；

④ 非饱和性：饱和就是指，当输入比较大的时候输出几乎没变化，会导致梯度消失；

⑤ 单调性：导数符号不变，输出不会上蹿下跳，让神经网络训练容易收敛。

（1）线性函数 (linear function)—— purelin()

（2）符号函数 (sign function)—— hardlim()

① 如果z值高于阈值，则激活设置为1或yes，神经元将被激活。

② 如果z值低于阈值，则激活设置为0或no，神经元不会被激活。

（3）对率函数 (sigmoid function)—— logsig()

① 优点：光滑S型曲线连续可导，函数阈值有上限。

② 缺点：❶ 函数饱和使梯度消失，两端梯度几乎为0，更新困难，做不深；

                ❷ 输出不是0中心，将影响梯度下降的运作，收敛异常慢；

                ❸ 幂运算相对来讲比较耗时

（4）双曲正切函数(hyperbolic tangent function)—— tansig()

① 优点：取值范围0中心化，防止了梯度偏差

② 缺点：梯度消失现象依然存在，但相对于sigmoid函数问题较轻

（5）整流线性单元 ReLU 函数(rectified linear unit)

① 优点：❶ 分段线性函数，它的非线性性很弱，因此网络做得很深；

                ❷ 由于它的线性、非饱和性，对于随机梯度下降的收敛有巨大的加速作用；

② 缺点：❶ 当x<0，梯度都变成0，参数无法更新，也导致了数据多样化的丢失；

                ❷ 输出不是0中心

（6）渗漏型整流线性单元激活函数 Leaky ReLU 函数

① 优点：❶ 是为解决“ReLU死亡”问题的尝试，在计算导数时允许较小的梯度；

                ❷ 非饱和的公式，不包含指数运算，计算速度快。

② 缺点：❶ 无法避免梯度爆炸问题；（没有体现优于ReLU）

                ❷ 神经网络不学习 α 值。

（7）指数线性单元 ELU (Exponential Linear Units)

① 优点：❶ 能避免“死亡 ReLU” 问题；

                ❷ 能得到负值输出，这能帮助网络向正确的方向推动权重和偏置变化；

                ❸ 在计算梯度时能得到激活，而不是让它们等于 0。

② 缺点：❶ 由于包含指数运算，所以计算时间更长；

                ❷ 无法避免梯度爆炸问题；（没有体现优于ReLU）

                ❸ 神经网络不学习 α 值。

（8）Maxout（对 ReLU 和 Leaky ReLU的一般化归纳）

① 优点：❶ 拥有ReLU的所有优点（线性和不饱和）

                ❷ 没有ReLU的缺点（死亡的ReLU单元）

                ❸ 可以拟合任意凸函数

② 缺点：参数数量增加了一倍。难训练，容易过拟合

（9）Swish

① 优点：❶ 在负半轴也有一定的不饱和区，参数的利用率更大

                ❷ 无上界有下界、平滑、非单调

                ❸ 在深层模型上的效果优于 ReLU

每个层都包含一定数量的单元（units）。增加层可增加神经网络输出的非线性。

（1）输入层：就是接收原始数据，然后往隐层送

（2）输出层：神经网络的决策输出

（3）隐藏层：神经网络的关键。把前一层的向量变成新的向量，让数据变得线性可分。

（1）结构：仅包含输入层和输出层，直接相连。

（2）作用：仅能表示线性可分函数或决策，且一定可以在有限的迭代次数中收敛。

（3）局限：可以建立与门、或门、非门等，但无法建立更为复杂的异或门（XOR），即两个输入相同时输出1，否则输出0。（“AI winter”）

（1）目的：拟合某个函数    （两层神经网络可以逼近任意连续函数）

（2）结构：包含输入层、隐藏层和输出层，由于从输入到输出的过程中不存在与模型自身的反馈连接，因此被称为“前馈”。    （层与层之间全连接）

（3）作用：非线性分类、聚类、预测等，通过训练，可以学习到数据中隐含的知识。

（4）局限：计算复杂、计算速度慢、容易陷入局部最优解，通常要将它们与其他网络结合形成新的网络。

（5）前向传播算法（Forward Propagation）

① 方法：从左至右逐级依赖的算法模型，即网络如何根据输入X得到输出Y，最终的输出值和样本值作比较，计算出误差。

② 目的：完成了一次正反向传播，就完成了一次神经网络的训练迭代。通过输出层的误差，快速求解对每个ω、b的偏导，利用梯度下降法，使Loss越来越小。

② 局限：为使最终的误差达到最小，要不断修改参数值，但神经网络的每条连接线上都有不同权重参数，修改这些参数变得棘手。

（6）误差反向传播（Back Propagation）

① 原理：梯度下降法求局部极值

② 方法：从后往前，从输出层开始计算 L 对当前层的微分，获得各层的误差信号，此误差信号即作为修正单元权值的依据。计算结束以后，所要的两个参数矩阵的梯度就都有了。

③ 局限：如果激活函数是饱和的，带来的缺陷就是系统迭代更新变慢，系统收敛就慢，当然这是可以有办法弥补的，一种方法是使用交叉熵函数作为损失函数。

（1）原理：随着网络的层数增加，每一层对于前一层次的抽象表示更深入。在神经网络中，每一层神经元学习到的是前一层神经元值的更抽象的表示。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

（2）方法：ReLU函数在训练多层神经网络时，更容易收敛，并且预测性能更好。

（3）优点：① 易于构建，表达能力强，基本单元便可扩展为复杂的非线性函数

② 并行性号，有利于在分布是系统上应用

（4）局限：① 优化算法只能获得局部极值，性能与初始值相关

② 调参理论性缺乏

③ 不可解释，与实际任务关联性模糊

（1）原理：由手工设计卷积核变成自动学习卷积核

（2）卷积（Convolutional layer）：输入与卷积核相乘再累加（内积、加权叠加）

① 公式：

② 目的：提取输入的不同特征，得到维度很大的特征图（feature map）

③ 卷积核：需要训练的参数。一般为奇数维，有中心像素点，便于定位卷积核

④ 特点：局部感知、参数变少、权重共享、分层提取

（3）池化（Pooling Layer）：用更高层的抽象表达来表示主要特征，又称“降采样”

① 分类：最大（出现与否）、平均（保留整体）、随机（避免过拟合）

② 目的：降维，不需要训练参数，得到新的、维度较小的特征

（4）步长（stride）：若假设输入大小是n∗n，卷积核的大小是f∗f，步长是s，则最后的feature map的大小为o∗o，其中

（5）填充（zero-padding）

① Full模式：即从卷积核（fileter）和输入刚相交开始做卷积，没有元素的部分做补0操作。

② Valid模式：卷积核和输入完全相交开始做卷积，这种模式不需要补0。

③ Same模式：当卷积核的中心C和输入开始相交时做卷积。没有元素的部分做补0操作。

（7）激活函数：加入非线性特征

（8）全连接层（Fully-connected layer）

如果说卷积层、池化层和激活函数层等是将原始数据映射到隐层特征空间（决定计算速度），全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用（决定参数个数）。

参考：

[1] 神经网络（入门最详细）_ruthy的博客-CSDN博客_神经网络算法入门

[2] 神经网络（容易被忽视的基础知识） - Evan的文章 - 知乎

[3] 人工神经网络——王的机器

[4] 如何简单形象又有趣地讲解神经网络是什么？ - 舒小曼的回答 - 知乎

[5] 神经网络15分钟入门！足够通俗易懂了吧 - Mr.括号的文章 - 知乎

[6] 神经网络——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神经网络

[7] 直觉化深度学习教程——什么是前向传播——CSDN

[8] “反向传播算法”过程及公式推导（超直观好懂的Backpropagation）_aift的专栏-CSDN

[9] 卷积、反卷积、池化、反池化——CSDN

[10] 浙大机器学习课程- bilibili.com

导航:首页 > 源码编译 > 神经网络算法教程

神经网络算法教程

与神经网络算法教程相关的资料