神經網路演算法教程_什麼是BP神經網路

1. 神經網路淺談

人工智慧技術是當前炙手可熱的話題，而基於神經網路的深度學習技術更是熱點中的熱點。去年穀歌的Alpha Go 以4:1大比分的優勢戰勝韓國的李世石九段，展現了深度學習的強大威力，後續強化版的Alpha Master和無師自通的Alpha Zero更是在表現上完全碾壓前者。不論你怎麼看，以深度學習為代表的人工智慧技術正在塑造未來。

下圖為英偉達（NVIDIA）公司近年來的股價情況，該公司的主要產品是「圖形處理器」（GPU），而GPU被證明能大大加快神經網路的訓練速度，是深度學習必不可少的計算組件。英偉達公司近年來股價的飛漲足以證明當前深度學習的井噴之勢。

好，話不多說，下面簡要介紹神經網路的基本原理、發展脈絡和優勢。

神經網路是一種人類由於受到生物神經細胞結構啟發而研究出的一種演算法體系，是機器學習演算法大類中的一種。首先讓我們來看人腦神經元細胞：

一個神經元通常具有多個樹突，主要用來接受傳入信息，而軸突只有一條，軸突尾端有許多軸突末梢，可以給其他多個神經元傳遞信息。軸突末梢跟其他神經元的樹突產生連接，從而傳遞信號。

下圖是一個經典的神經網路（Artificial Neural Network,ANN）：

乍一看跟傳統互聯網的拓撲圖有點類似，這也是稱其為網路的原因，不同的是節點之間通過有向線段連接，並且節點被分成三層。我們稱圖中的圓圈為神經元，左邊三個神經元組成的一列為輸入層，中間神經元列為隱藏層,右邊神經元列為輸出層，神經元之間的箭頭為權重。

神經元是計算單元，相當於神經元細胞的細胞核，利用輸入的數據進行計算，然後輸出，一般由一個線性計算部分和一個非線性計算部分組成；輸入層和輸出層實現數據的輸入輸出，相當於細胞的樹突和軸突末梢；隱藏層指既不是輸入也不是輸出的神經元層，一個神經網路可以有很多個隱藏層。

神經網路的關鍵不是圓圈代表的神經元，而是每條連接線對應的權重。每條連接線對應一個權重，也就是一個參數。權重具體的值需要通過神經網路的訓練才能獲得。我們實際生活中的學習體現在大腦中就是一系列神經網路迴路的建立與強化，多次重復的學習能讓迴路變得更加粗壯，使得信號的傳遞速度加快，最後對外表現為「深刻」的記憶。人工神經網路的訓練也借鑒於此，如果某種映射關系出現很多次，那麼在訓練過程中就相應調高其權重。

1943年，心理學家McCulloch和數學家Pitts參考了生物神經元的結構，發表了抽象的神經元模型MP：

符號化後的模型如下：

Sum函數計算各權重與輸入乘積的線性組合，是神經元中的線性計算部分，而sgn是取符號函數，當輸入大於0時，輸出1，反之輸出0，是神經元中的非線性部分。向量化後的公式為z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，權重的值都是預先設置的，因此不能學習。該模型雖然簡單，並且作用有限，但已經建立了神經網路大廈的地基

1958年，計算科學家Rosenblatt提出了由兩層神經元組成(一個輸入層，一個輸出層)的神經網路。他給它起了一個名字–「感知器」（Perceptron）

感知器是當時首個可以學習的人工神經網路。Rosenblatt現場演示了其學習識別簡單圖像的過程，在當時引起了轟動，掀起了第一波神經網路的研究熱潮。

但感知器只能做簡單的線性分類任務。1969年，人工智慧領域的巨擘Minsky指出這點，並同時指出感知器對XOR（異或，即兩個輸入相同時輸出0，不同時輸出1）這樣的簡單邏輯都無法解決。所以，明斯基認為神經網路是沒有價值的。

隨後，神經網路的研究進入低谷，又稱 AI Winter 。

Minsky說過單層神經網路無法解決異或問題，但是當增加一個計算層以後，兩層神經網路不僅可以解決異或問題，而且具有非常好的非線性分類效果。

下圖為兩層神經網路（輸入層一般不算在內）：

上圖中，輸出層的輸入是上一層的輸出。

向量化後的公式為：

注意：

每個神經元節點默認都有偏置變數b，加上偏置變數後的計算公式為：

同時，兩層神經網路不再使用sgn函數作為激勵函數，而採用平滑的sigmoid函數：

σ(z)=1/(1+e^(-z) )

其圖像如下：

理論證明：兩層及以上的神經網路可以無限逼近真實的對應函數，從而模擬數據之間的真實關系，這是神經網路強大預測能力的根本。但兩層神經網路的計算量太大，當時的計算機的計算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向傳播（Backpropagation，BP）演算法，解決了兩層神經網路所需要的復雜計算量問題，帶動了業界使用兩層神經網路研究的熱潮。

但好景不長，演算法的改進僅使得神經網路風光了幾年，然而計算能力不夠，局部最優解，調參等一系列問題一直困擾研究人員。90年代中期，由Vapnik等人發明的SVM（Support Vector Machines，支持向量機）演算法誕生，很快就在若干個方面體現出了對比神經網路的優勢：無需調參；高效；全局最優解。

由於以上原因，SVM迅速打敗了神經網路演算法成為主流。神經網路的研究再一次進入低谷， AI Winter again 。

多層神經網路一般指兩層或兩層以上的神經網路（不包括輸入層），更多情況下指兩層以上的神經網路。

2006年，Hinton提出使用預訓練」（pre-training）和「微調」(fine-tuning)技術能優化神經網路訓練，大幅度減少訓練多層神經網路的時間

並且，他給多層神經網路相關的學習方法賦予了一個新名詞–「深度學習」，以此為起點，「深度學習」紀元開始了：）

「深度學習」一方面指神經網路的比較「深」，也就是層數較多；另一方面也可以指神經網路能學到很多深層次的東西。研究發現，在權重參數不變的情況下，增加神經網路的層數，能增強神經網路的表達能力。

但深度學習究竟有多強大呢？沒人知道。2012年，Hinton與他的學生在ImageNet競賽中，用多層的卷積神經網路成功地對包含一千類別的一百萬張圖片進行了訓練，取得了分類錯誤率15%的好成績，這個成績比第二名高了近11個百分點，充分證明了多層神經網路識別效果的優越性。

同時，科研人員發現GPU的大規模並行矩陣運算模式完美地契合神經網路訓練的需要，在同等情況下，GPU的速度要比CPU快50-200倍，這使得神經網路的訓練時間大大減少，最終再一次掀起了神經網路研究的熱潮，並且一直持續到現在。

2016年基於深度學習的Alpha Go在圍棋比賽中以4:1的大比分優勢戰勝了李世石，深度學習的威力再一次震驚了世界。

神經網路的發展歷史曲折盪漾，既有被捧上神壇的高潮，也有無人問津的低谷，中間經歷了數次大起大落，我們姑且稱之為「三起三落」吧，其背後則是演算法的改進和計算能力的持續發展。

下圖展示了神經網路自發明以來的發展情況及一些重大時間節點。

當然，對於神經網路我們也要保持清醒的頭腦。由上圖，每次神經網路研究的興盛期持續10年左右，從最近2012年算起，或許10年後的2022年，神經網路的發展將再次遇到瓶頸。

神經網路作為機器學習的一種，其模型訓練的目的，就是使得參數盡可能的與真實的模型逼近。理論證明，兩層及以上的神經網路可以無限逼近真實的映射函數。因此，給定足夠的訓練數據和訓練時間，總能通過神經網路找到無限逼近真實關系的模型。

具體做法：首先給所有權重參數賦上隨機值，然後使用這些隨機生成的參數值，來預測訓練數據中的樣本。假設樣本的預測目標為yp ，真實目標為y，定義值loss，計算公式如下：

loss = (yp -y) ^2

這個值稱之為損失（loss），我們的目標就是使對所有訓練數據的損失和盡可能的小，這就轉化為求loss函數極值的問題。

一個常用方法是高等數學中的求導，但由於參數不止一個，求導後計算導數等於0的運算量很大，所以常用梯度下降演算法來解決這樣的優化問題。梯度是一個向量，由函數的各自變數的偏導數組成。

比如對二元函數 f =(x,y)，則梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函數值上升最快的方向。梯度下降演算法每次計算參數在當前的梯度，然後讓參數向著梯度的反方向前進一段距離，不斷重復，直到梯度接近零時截止。一般這個時候，所有的參數恰好達到使損失函數達到一個最低值的狀態。下圖為梯度下降的大致運行過程：

在神經網路模型中，由於結構復雜，每次計算梯度的代價很大。因此還需要使用反向傳播（Back Propagation）演算法。反向傳播演算法利用了神經網路的結構進行計算，不一次計算所有參數的梯度，而是從後往前。首先計算輸出層的梯度，然後是第二個參數矩陣的梯度，接著是中間層的梯度，再然後是第一個參數矩陣的梯度，最後是輸入層的梯度。計算結束以後，所要的兩個參數矩陣的梯度就都有了。當然，梯度下降只是其中一個優化演算法，其他的還有牛頓法、RMSprop等。

確定loss函數的最小值後，我們就確定了整個神經網路的權重，完成神經網路的訓練。

在神經網路中一樣的參數數量，可以用更深的層次去表達。

由上圖，不算上偏置參數的話，共有三層神經元，33個權重參數。

由下圖，保持權重參數不變，但增加了兩層神經元。

在多層神經網路中，每一層的輸入是前一層的輸出，相當於在前一層的基礎上學習，更深層次的神經網路意味著更深入的表示特徵，以及更強的函數模擬能力。更深入的表示特徵可以這樣理解，隨著網路的層數增加，每一層對於前一層次的抽象表示更深入。

如上圖，第一個隱藏層學習到「邊緣」的特徵，第二個隱藏層學習到「邊緣」組成的「形狀」的特徵，第三個隱藏層學習到由「形狀」組成的「圖案」的特徵，最後的隱藏層學習到由「圖案」組成的「目標」的特徵。通過抽取更抽象的特徵來對事物進行區分，從而獲得更好的區分與分類能力。

前面提到，明斯基認為Rosenblatt提出的感知器模型不能處理最簡單的「異或」（XOR）非線性問題，所以神經網路的研究沒有前途，但當增加一層神經元後，異或問題得到了很好地解決，原因何在？原來從輸入層到隱藏層，數據發生了空間變換，坐標系發生了改變，因為矩陣運算本質上就是一種空間變換。

如下圖，紅色和藍色的分界線是最終的分類結果，可以看到，該分界線是一條非常平滑的曲線。

但是，改變坐標系後，分界線卻表現為直線，如下圖：

同時，非線性激勵函數的引入使得神經網路對非線性問題的表達能力大大加強。

對於傳統的樸素貝葉斯、決策樹、支持向量機SVM等分類器，提取特徵是一個非常重要的前置工作。在正式訓練之前，需要花費大量的時間在數據的清洗上，這樣分類器才能清楚地知道數據的維度，要不然基於概率和空間距離的線性分類器是沒辦法進行工作的。然而在神經網路中，由於巨量的線性分類器的堆疊（並行和串列）以及卷積神經網路的使用，它對雜訊的忍耐能力、對多通道數據上投射出來的不同特徵偏向的敏感程度會自動重視或忽略，這樣我們在處理的時候，就不需要使用太多的技巧用於數據的清洗了。有趣的是，業內大佬常感嘆，「你可能知道SVM等機器學習的所有細節，但是效果並不好，而神經網路更像是一個黑盒，很難知道它究竟在做什麼，但工作效果卻很好」。

人類對機器學習的環節干預越少，就意味著距離人工智慧的方向越近。神經網路的這個特性非常有吸引力。

1) 谷歌的TensorFlow開發了一個非常有意思的神經網路入門教程，用戶可以非常方便地在網頁上更改神經網路的參數，並且能看到實時的學習效率和結果，非常適合初學者掌握神經網路的基本概念及神經網路的原理。網頁截圖如下：

2) 深度學習領域大佬吳恩達不久前發布的《神經網路和深度學習》MOOC，現在可以在網易雲課堂上免費觀看了，並且還有中文字幕。

3) 《神經網路於深度學習》（Michael Nielsen著）、《白話深度學習與TensorFlow》也是不錯的入門書籍。

2. BP神經演算法是什麼能給點既通俗易懂又比較詳細的回答嗎

BP（Back Propagation）網路是1986年由Rumelhart和McCelland為首的科學家小組提出，是一種按誤差逆傳播演算法訓練的多層前饋網路，是目前應用最廣泛的神經網路模型之一。BP網路能學習和存貯大量的輸入-輸出模式映射關系，而無需事前揭示描述這種映射關系的數學方程。它的學習規則是使用最速下降法，通過反向傳播來不斷調整網路的權值和閾值，使網路的誤差平方和最小。BP神經網路模型拓撲結構包括輸入層（input）、隱層(hide layer)和輸出層(output layer)。

BP神經網路演算法是在BP神經網路現有演算法的基礎上提出的，是通過任意選定一組權值，將給定的目標輸出直接作為線性方程的代數和來建立線性方程組，解得待求權，不存在傳統方法的局部極小及收斂速度慢的問題，且更易理解。
1 傳統的BP演算法簡述
BP演算法是一種有監督式的學習演算法，其主要思想是：輸入學習樣本，使用反向傳播演算法對網路的權值和偏差進行反復的調整訓練，使輸出的向量與期望向量盡可能地接近，當網路輸出層的誤差平方和小於指定的誤差時訓練完成，保存網路的權值和偏差。具體步驟如下：（1）初始化，隨機給定各連接權［w］,［v］及閥值θi，rt。（2）由給定的輸入輸出模式對計算隱層、輸出層各單元輸出 bj＝f（■wijai-θj） ct＝f（■vjtbj－rt）式中：bj為隱層第j個神經元實際輸出；ct為輸出層第t個神經元的實際輸出；wij為輸入層至隱層的連接權；vjt為隱層至輸出層的連接權。 dtk＝（ytk－ct）ct（1－ct） ejk＝［■dtvjt］ bj（1－bj）式中：dtk為輸出層的校正誤差；ejk為隱層的校正誤差。（3）計算新的連接權及閥值，計算公式如下： vjt（n＋1）＝vjt（n）＋?琢dtkbj wij（n＋1）＝wij（n）＋?茁ejkaik rt（n＋1）＝rt（n）＋?琢dtk θj（n＋1）=θj（n）＋?茁ejk 式中：?琢，?茁為學習系數（0＜?琢＜1，0＜?茁＜1）。（4）選取下一個輸入模式對返回第2步反復訓練直到網路設輸出誤差達到要求結束訓練。傳統的BP演算法，實質上是把一組樣本輸入/輸出問題轉化為一個非線性優化問題，並通過負梯度下降演算法，利用迭代運算求解權值問題的一種學習方法，但其收斂速度慢且容易陷入局部極小，為此提出了一種新的演算法，即高斯消元法。
2 改進的BP網路演算法
2．1 改進演算法概述此前有人提出：任意選定一組自由權，通過對傳遞函數建立線性方程組，解得待求權。本文在此基礎上將給定的目標輸出直接作為線性方程等式代數和來建立線性方程組，不再通過對傳遞函數求逆來計算神經元的凈輸出，簡化了運算步驟。沒有採用誤差反饋原理，因此用此法訓練出來的神經網路結果與傳統演算法是等效的。其基本思想是：由所給的輸入、輸出模式對通過作用於神經網路來建立線性方程組，運用高斯消元法解線性方程組來求得未知權值，而未採用傳統BP網路的非線性函數誤差反饋尋優的思想。 2．2 改進演算法的具體步驟對給定的樣本模式對，隨機選定一組自由權，作為輸出層和隱含層之間固定權值，通過傳遞函數計算隱層的實際輸出，再將輸出層與隱層間的權值作為待求量，直接將目標輸出作為等式的右邊建立方程組來求解。現定義如下符號（見圖1）：x （p）輸入層的輸入矢量；y （p）輸入層輸入為x （p）時輸出層的實際輸出矢量；t （p）目標輸出矢量；n，m，r分別為輸入層、隱層和輸出層神經元個數；W為隱層與輸入層間的權矩陣；V為輸出層與隱層間的權矩陣。具體步驟如下：（1）隨機給定隱層和輸入層間神經元的初始權值wij。（2）由給定的樣本輸入xi（p）計算出隱層的實際輸出aj（p）。為方便起見將圖1網路中的閥值寫入連接權中去，令：隱層閥值θj＝wnj，x（n）＝－1，則： aj（p）=f（■wijxi（p））（j＝1，2…m－1）。（3）計算輸出層與隱層間的權值vjr。以輸出層的第r個神經元為對象，由給定的輸出目標值tr（p）作為等式的多項式值建立方程，用線性方程組表示為： a0（1）v1r+a1（1）v2r+…+am（1）vmr=tr（1）a0（2）v1r+a1（2）v2r+…+am（2）vmr=tr（2） ……a0（p）v1r+a1（p）v2r+…+am（p）vmr=tr（p）簡寫為： Av＝T 為了使該方程組有唯一解，方程矩陣A為非奇異矩陣，其秩等於其增廣矩陣的秩，即：r（A）＝r（A┊B），且方程的個數等於未知數的個數，故取m＝p，此時方程組的唯一解為： Vr＝［v0r，v2r，…vmr］（r＝0，1，2…m－1）（4）重復第三步就可以求出輸出層m個神經元的權值，以求的輸出層的權矩陣加上隨機固定的隱層與輸入層的權值就等於神經網路最後訓練的權矩陣。
3 計算機運算實例
現以神經網路最簡單的XOR問題用VC編程運算進行比較（取神經網路結構為2－4－1型），傳統演算法和改進BP演算法的誤差（取動量因子α＝0．001 5，步長η＝1．653）

3. 求人工神經網路的具體演算法，數學模型，比如求一個函數最優值之類的，不要各種亂七八糟的介紹，謝謝

神經網路就像多項式或者線性模型一樣，是個看不見表達式的模型，它的表達式就是網路，它比一般模型具有更高的自由度和彈性；同時它是一個典型的黑箱模型方法；比多項式等模型還黑。優化演算法，就是尋優的演算法，所謂尋優過程，就是尋找使目標函數最小時（都是統一表示成尋找使函數具有最小值）的自變數的值。回歸或者擬合一個模型,例如用一個多項式模型去擬合一組數據，其本質就是尋找使殘差平方和最小的參數值，這就是一個尋優的過程，其實就是尋找使函數F（x）值最小時的x的值；對於這個具體的尋找過程就涉及到演算法問題，就是如何計算。所謂演算法，是數值分析的一個范疇，就是解這問題的方法；例如一個一元二次方程 x^2-3x+1=0的解法，因為簡單可以直接求解，也可以用牛頓逐個靠近的方法求解，也即是迭代，慢慢接近真實解，如此下去不斷接近真值，要注意迭代演算法是涉及演算法精度的，這些迭代演算法是基於計算機的，演算法的初衷也是用近似的演算法用一定的精度來接近真實值。比如上面的方程也可以用遺傳演算法來解，可以從一些初始值最終迭代到最佳解。神經網路在尋找網路的參數即權值的時候，也有尋找使訓練效果最好的過程，這也是尋優的過程，這里涉及到了演算法就是所謂的神經網路演算法，這和最小二乘演算法是一樣的道理；例如做響應面的時候，其實就是二次回歸，用最小二乘得到二次模型的參數，得到一個函數，求最大產物量就是求函數模型的最大值，怎麼算呢？頂點處如果導數為0，這個地方對應的x值就是最優的，二次模型簡單可以用偏導數=0來直接解決，這過程也可以遺傳演算法等來解決。說到底所謂尋優的本質就是，尋找函數極值處對應的自變數的值。

4. 清華名師用30小時講解Python教程，整整400多集，拿走不謝

本套 Python 課程 400 集，從零基礎開始，全面講解 Python 基礎，直達可以手寫神經網路的境界。

我們創造性的增加了：手寫數據結構和演算法、手寫神經網路項目。讓零基礎學員在學習Python 時就開始接觸高深的底層知識、神經網路底層實現的知識。

內容共分 26 章，講解了 Python 基礎的方方面面，可以作為 Python 學習者的「寶典」。同時，穿插了 3 個大型實戰項目：

1. 坦克大戰游戲。

採用游戲開發的方式，寓教於樂，快樂中掌握 Python 基礎。

2. 手寫演算法和數據結構。

演算法和數據結構是很多大公司面試的不二選擇，我們這里講解內容的同時，手把手帶你實現一個個底層演算法，將內功練扎實。

3. 手寫神經網路。

Python 是人工智慧的第一語言。我們創造性的在基礎課程中就加入了如何編寫一個自己的神經網路，為踏入神經網路的大門打下「堅實基礎」。

本套視頻一共 400 集，本套視頻共分 3 季：

第一季【基礎篇】Python 基礎（115 集）

第二季【提高篇】Python 深入和擴展（100 集）

第三季【擴展篇】網路編程、多線程、擴展庫（85 集）

第四季【高手篇】演算法、Python 源碼、函數式編程、手工實現神經網路（100 集）

一 Python基礎

二資料庫編程

三 Liunx系統

四網頁編程

五 VUE框架

六 Flask 框架

獲取方式：

私信「1」獲取

私信方法：點擊頭像點擊回復「1」即可

5. 什麼是BP神經網路

BP演算法的基本思想是：學習過程由信號正向傳播與誤差的反向回傳兩個部分組成；正向傳播時，輸入樣本從輸入層傳入，經各隱層依次逐層處理，傳向輸出層，若輸出層輸出與期望不符，則將誤差作為調整信號逐層反向回傳，對神經元之間的連接權矩陣做出處理，使誤差減小。經反復學習，最終使誤差減小到可接受的范圍。具體步驟如下：
1、從訓練集中取出某一樣本，把信息輸入網路中。
2、通過各節點間的連接情況正向逐層處理後，得到神經網路的實際輸出。
3、計算網路實際輸出與期望輸出的誤差。
4、將誤差逐層反向回傳至之前各層，並按一定原則將誤差信號載入到連接權值上，使整個神經網路的連接權值向誤差減小的方向轉化。
5、対訓練集中每一個輸入—輸出樣本對重復以上步驟，直到整個訓練樣本集的誤差減小到符合要求為止。

6. 神經網路（Neural Network）

（1）結構：許多樹突（dendrite）用於輸入，一個軸突（axon）用於輸出。

（2）特性：興奮性和傳導性。興奮性是指當信號量超過某個閾值時，細胞體就會被激活，產生電脈沖。傳導性是指電脈沖沿著軸突並通過突觸傳遞到其它神經元。

（3）有兩種狀態的機器：激活時為「是」，不激活時為「否」。神經細胞的狀態取決於從其他神經細胞接收到的信號量，以及突觸的性質（抑制或加強）。

（1）神經元——不重要

① 神經元是包含權重和偏置項的函數：接收數據後，執行一些計算，然後使用激活函數將數據限制在一個范圍內（多數情況下）。

② 單個神經元：線性可分的情況下，本質是一條直線，，這條直線將數據劃分為兩類。而線性分類器本身就是一個單層神經網路。

③ 神經網路：非線性可分的情況下，神經網路通過多個隱層的方法來實現非線性的函數。

（2）權重/參數/連接（Weight）——最重要

每一個連接上都有一個權重。一個神經網路的訓練演算法就是讓權重的值調整到最佳，以使得整個網路的預測效果最好。

（3）偏置項（Bias Units）——必須

① 如果沒有偏置項，所有的函數都會經過原點。

② 正則化偏置會導致欠擬合：若對偏置正則化，會爛猛導致激活變得更加簡單，偏差就會上升，學習的能力就會下降。

③ 偏置的大小度量了神經元產生激勵（激活）的難易程度。

（1）定義：也稱為轉換函數，是一種將輸入 (input) 轉成輸出 (output) 的函數。

（2）作用：一般直線擬合的精確度要比曲線差很多，引入激活嫌虧函數能給神經網路增加一些非線性的特性。

（3）性質：

① 非線性：導數不是常數，否則就退化成直線。對於一些畫一條直線仍然無法分開的問題，非線性可以把直線變彎，就能包羅萬象；

② 可微性：當優化方法是基於梯度的時候，處處可導為後向傳播演算法提供了核心芹歷神條件；

③ 輸出范圍：一般限定在[0,1]，使得神經元對一些比較大的輸入會比較穩定；

④ 非飽和性：飽和就是指，當輸入比較大的時候輸出幾乎沒變化，會導致梯度消失；

⑤ 單調性：導數符號不變，輸出不會上躥下跳，讓神經網路訓練容易收斂。

（1）線性函數 (linear function)—— purelin()

（2）符號函數 (sign function)—— hardlim()

① 如果z值高於閾值，則激活設置為1或yes，神經元將被激活。

② 如果z值低於閾值，則激活設置為0或no，神經元不會被激活。

（3）對率函數 (sigmoid function)—— logsig()

① 優點：光滑S型曲線連續可導，函數閾值有上限。

② 缺點：❶ 函數飽和使梯度消失，兩端梯度幾乎為0，更新困難，做不深；

                ❷ 輸出不是0中心，將影響梯度下降的運作，收斂異常慢；

                ❸ 冪運算相對來講比較耗時

（4）雙曲正切函數(hyperbolic tangent function)—— tansig()

① 優點：取值范圍0中心化，防止了梯度偏差

② 缺點：梯度消失現象依然存在，但相對於sigmoid函數問題較輕

（5）整流線性單元 ReLU 函數(rectified linear unit)

① 優點：❶ 分段線性函數，它的非線性性很弱，因此網路做得很深；

                ❷ 由於它的線性、非飽和性，對於隨機梯度下降的收斂有巨大的加速作用；

② 缺點：❶ 當x<0，梯度都變成0，參數無法更新，也導致了數據多樣化的丟失；

                ❷ 輸出不是0中心

（6）滲漏型整流線性單元激活函數 Leaky ReLU 函數

① 優點：❶ 是為解決「ReLU死亡」問題的嘗試，在計算導數時允許較小的梯度；

                ❷ 非飽和的公式，不包含指數運算，計算速度快。

② 缺點：❶ 無法避免梯度爆炸問題；（沒有體現優於ReLU）

                ❷ 神經網路不學習 α 值。

（7）指數線性單元 ELU (Exponential Linear Units)

① 優點：❶ 能避免「死亡 ReLU」問題；

                ❷ 能得到負值輸出，這能幫助網路向正確的方向推動權重和偏置變化；

                ❸ 在計算梯度時能得到激活，而不是讓它們等於 0。

② 缺點：❶ 由於包含指數運算，所以計算時間更長；

                ❷ 無法避免梯度爆炸問題；（沒有體現優於ReLU）

                ❸ 神經網路不學習 α 值。

（8）Maxout（對 ReLU 和 Leaky ReLU的一般化歸納）

① 優點：❶ 擁有ReLU的所有優點（線性和不飽和）

                ❷ 沒有ReLU的缺點（死亡的ReLU單元）

                ❸ 可以擬合任意凸函數

② 缺點：參數數量增加了一倍。難訓練，容易過擬合

（9）Swish

① 優點：❶ 在負半軸也有一定的不飽和區，參數的利用率更大

                ❷ 無上界有下界、平滑、非單調

                ❸ 在深層模型上的效果優於 ReLU

每個層都包含一定數量的單元（units）。增加層可增加神經網路輸出的非線性。

（1）輸入層：就是接收原始數據，然後往隱層送

（2）輸出層：神經網路的決策輸出

（3）隱藏層：神經網路的關鍵。把前一層的向量變成新的向量，讓數據變得線性可分。

（1）結構：僅包含輸入層和輸出層，直接相連。

（2）作用：僅能表示線性可分函數或決策，且一定可以在有限的迭代次數中收斂。

（3）局限：可以建立與門、或門、非門等，但無法建立更為復雜的異或門（XOR），即兩個輸入相同時輸出1，否則輸出0。（「AI winter」）

（1）目的：擬合某個函數    （兩層神經網路可以逼近任意連續函數）

（2）結構：包含輸入層、隱藏層和輸出層，由於從輸入到輸出的過程中不存在與模型自身的反饋連接，因此被稱為「前饋」。    （層與層之間全連接）

（3）作用：非線性分類、聚類、預測等，通過訓練，可以學習到數據中隱含的知識。

（4）局限：計算復雜、計算速度慢、容易陷入局部最優解，通常要將它們與其他網路結合形成新的網路。

（5）前向傳播演算法（Forward Propagation）

① 方法：從左至右逐級依賴的演算法模型，即網路如何根據輸入X得到輸出Y，最終的輸出值和樣本值作比較，計算出誤差。

② 目的：完成了一次正反向傳播，就完成了一次神經網路的訓練迭代。通過輸出層的誤差，快速求解對每個ω、b的偏導，利用梯度下降法，使Loss越來越小。

② 局限：為使最終的誤差達到最小，要不斷修改參數值，但神經網路的每條連接線上都有不同權重參數，修改這些參數變得棘手。

（6）誤差反向傳播（Back Propagation）

① 原理：梯度下降法求局部極值

② 方法：從後往前，從輸出層開始計算 L 對當前層的微分，獲得各層的誤差信號，此誤差信號即作為修正單元權值的依據。計算結束以後，所要的兩個參數矩陣的梯度就都有了。

③ 局限：如果激活函數是飽和的，帶來的缺陷就是系統迭代更新變慢，系統收斂就慢，當然這是可以有辦法彌補的，一種方法是使用交叉熵函數作為損失函數。

（1）原理：隨著網路的層數增加，每一層對於前一層次的抽象表示更深入。在神經網路中，每一層神經元學習到的是前一層神經元值的更抽象的表示。通過抽取更抽象的特徵來對事物進行區分，從而獲得更好的區分與分類能力。

（2）方法：ReLU函數在訓練多層神經網路時，更容易收斂，並且預測性能更好。

（3）優點：① 易於構建，表達能力強，基本單元便可擴展為復雜的非線性函數

② 並行性號，有利於在分布是系統上應用

（4）局限：① 優化演算法只能獲得局部極值，性能與初始值相關

② 調參理論性缺乏

③ 不可解釋，與實際任務關聯性模糊

（1）原理：由手工設計卷積核變成自動學習卷積核

（2）卷積（Convolutional layer）：輸入與卷積核相乘再累加（內積、加權疊加）

① 公式：

② 目的：提取輸入的不同特徵，得到維度很大的特徵圖（feature map）

③ 卷積核：需要訓練的參數。一般為奇數維，有中心像素點，便於定位卷積核

④ 特點：局部感知、參數變少、權重共享、分層提取

（3）池化（Pooling Layer）：用更高層的抽象表達來表示主要特徵，又稱「降采樣」

① 分類：最大（出現與否）、平均（保留整體）、隨機（避免過擬合）

② 目的：降維，不需要訓練參數，得到新的、維度較小的特徵

（4）步長（stride）：若假設輸入大小是n∗n，卷積核的大小是f∗f，步長是s，則最後的feature map的大小為o∗o，其中

（5）填充（zero-padding）

① Full模式：即從卷積核（fileter）和輸入剛相交開始做卷積，沒有元素的部分做補0操作。

② Valid模式：卷積核和輸入完全相交開始做卷積，這種模式不需要補0。

③ Same模式：當卷積核的中心C和輸入開始相交時做卷積。沒有元素的部分做補0操作。

（7）激活函數：加入非線性特徵

（8）全連接層（Fully-connected layer）

如果說卷積層、池化層和激活函數層等是將原始數據映射到隱層特徵空間（決定計算速度），全連接層則起到將學到的「分布式特徵表示」映射到樣本標記空間的作用（決定參數個數）。

參考：

[1] 神經網路（入門最詳細）_ruthy的博客-CSDN博客_神經網路演算法入門

[2] 神經網路（容易被忽視的基礎知識） - Evan的文章 - 知乎

[3] 人工神經網路——王的機器

[4] 如何簡單形象又有趣地講解神經網路是什麼？ - 舒小曼的回答 - 知乎

[5] 神經網路15分鍾入門！足夠通俗易懂了吧 - Mr.括弧的文章 - 知乎

[6] 神經網路——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神經網路

[7] 直覺化深度學習教程——什麼是前向傳播——CSDN

[8] 「反向傳播演算法」過程及公式推導（超直觀好懂的Backpropagation）_aift的專欄-CSDN

[9] 卷積、反卷積、池化、反池化——CSDN

[10] 浙大機器學習課程- bilibili.com

導航:首頁 > 源碼編譯 > 神經網路演算法教程

神經網路演算法教程

與神經網路演算法教程相關的資料