神經網路演算法視頻_神經網路演算法是什麼

A. 神經網路演算法是什麼

Introction
--------------------------------------------------------------------------------

神經網路是新技術領域中的一個時尚詞彙。很多人聽過這個詞，但很少人真正明白它是什麼。本文的目的是介紹所有關於神經網路的基本包括它的功能、一般結構、相關術語、類型及其應用。

「神經網路」這個詞實際是來自於生物學，而我們所指的神經網路正確的名稱應該是「人工神經網路（ANNs）」。在本文，我會同時使用這兩個互換的術語。

一個真正的神經網路是由數個至數十億個被稱為神經元的細胞（組成我們大腦的微小細胞）所組成，它們以不同方式連接而型成網路。人工神經網路就是嘗試模擬這種生物學上的體系結構及其操作。在這里有一個難題：我們對生物學上的神經網路知道的不多！因此，不同類型之間的神經網路體系結構有很大的不同，我們所知道的只是神經元基本的結構。

The neuron
--------------------------------------------------------------------------------

雖然已經確認在我們的大腦中有大約50至500種不同的神經元，但它們大部份都是基於基本神經元的特別細胞。基本神經元包含有synapses、soma、axon及dendrites。Synapses負責神經元之間的連接，它們不是直接物理上連接的，而是它們之間有一個很小的空隙允許電子訊號從一個神經元跳到另一個神經元。然後這些電子訊號會交給soma處理及以其內部電子訊號將處理結果傳遞給axon。而axon會將這些訊號分發給dendrites。最後，dendrites帶著這些訊號再交給其它的synapses，再繼續下一個循環。

如同生物學上的基本神經元，人工的神經網路也有基本的神經元。每個神經元有特定數量的輸入，也會為每個神經元設定權重（weight）。權重是對所輸入的資料的重要性的一個指標。然後，神經元會計算出權重合計值（net value），而權重合計值就是將所有輸入乘以它們的權重的合計。每個神經元都有它們各自的臨界值（threshold），而當權重合計值大於臨界值時，神經元會輸出1。相反，則輸出0。最後，輸出會被傳送給與該神經元連接的其它神經元繼續剩餘的計算。

Learning
--------------------------------------------------------------------------------

正如上述所寫，問題的核心是權重及臨界值是該如何設定的呢？世界上有很多不同的訓練方式，就如網路類型一樣多。但有些比較出名的包括back-propagation, delta rule及Kohonen訓練模式。

由於結構體系的不同，訓練的規則也不相同，但大部份的規則可以被分為二大類別 - 監管的及非監管的。監管方式的訓練規則需要「教師」告訴他們特定的輸入應該作出怎樣的輸出。然後訓練規則會調整所有需要的權重值（這是網路中是非常復雜的），而整個過程會重頭開始直至數據可以被網路正確的分析出來。監管方式的訓練模式包括有back-propagation及delta rule。非監管方式的規則無需教師，因為他們所產生的輸出會被進一步評估。

Architecture
--------------------------------------------------------------------------------

在神經網路中，遵守明確的規則一詞是最「模糊不清」的。因為有太多不同種類的網路，由簡單的布爾網路（Perceptrons），至復雜的自我調整網路（Kohonen），至熱動態性網路模型（Boltzmann machines）！而這些，都遵守一個網路體系結構的標准。

一個網路包括有多個神經元「層」，輸入層、隱蔽層及輸出層。輸入層負責接收輸入及分發到隱蔽層（因為用戶看不見這些層，所以見做隱蔽層）。這些隱蔽層負責所需的計算及輸出結果給輸出層，而用戶則可以看到最終結果。現在，為免混淆，不會在這里更深入的探討體系結構這一話題。對於不同神經網路的更多詳細資料可以看Generation5 essays

盡管我們討論過神經元、訓練及體系結構，但我們還不清楚神經網路實際做些什麼。

The Function of ANNs
--------------------------------------------------------------------------------

神經網路被設計為與圖案一起工作 - 它們可以被分為分類式或聯想式。分類式網路可以接受一組數，然後將其分類。例如ONR程序接受一個數字的影象而輸出這個數字。或者PPDA32程序接受一個坐標而將它分類成A類或B類（類別是由所提供的訓練決定的）。更多實際用途可以看Applications in the Military中的軍事雷達，該雷達可以分別出車輛或樹。

聯想模式接受一組數而輸出另一組。例如HIR程序接受一個『臟』圖像而輸出一個它所學過而最接近的一個圖像。聯想模式更可應用於復雜的應用程序，如簽名、面部、指紋識別等。

The Ups and Downs of Neural Networks
--------------------------------------------------------------------------------

神經網路在這個領域中有很多優點，使得它越來越流行。它在類型分類/識別方面非常出色。神經網路可以處理例外及不正常的輸入數據，這對於很多系統都很重要（例如雷達及聲波定位系統）。很多神經網路都是模仿生物神經網路的，即是他們仿照大腦的運作方式工作。神經網路也得助於神經系統科學的發展，使它可以像人類一樣准確地辨別物件而有電腦的速度！前途是光明的，但現在...

是的，神經網路也有些不好的地方。這通常都是因為缺乏足夠強大的硬體。神經網路的力量源自於以並行方式處理資訊，即是同時處理多項數據。因此，要一個串列的機器模擬並行處理是非常耗時的。

神經網路的另一個問題是對某一個問題構建網路所定義的條件不足 - 有太多因素需要考慮：訓練的演算法、體系結構、每層的神經元個數、有多少層、數據的表現等，還有其它更多因素。因此，隨著時間越來越重要，大部份公司不可能負擔重復的開發神經網路去有效地解決問題。

NN 神經網路，Neural Network
ANNs 人工神經網路，Artificial Neural Networks
neurons 神經元
synapses 神經鍵
self-organizing networks 自我調整網路
networks modelling thermodynamic properties 熱動態性網路模型

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
網格演算法我沒聽說過
好像只有網格計算這個詞

網格計算是伴隨著互聯網技術而迅速發展起來的，專門針對復雜科學計算的新型計算模式。這種計算模式是利用互聯網把分散在不同地理位置的電腦組織成一個「虛擬的超級計算機」，其中每一台參與計算的計算機就是一個「節點」，而整個計算是由成千上萬個「節點」組成的「一張網格」，所以這種計算方式叫網格計算。這樣組織起來的「虛擬的超級計算機」有兩個優勢，一個是數據處理能力超強；另一個是能充分利用網上的閑置處理能力。簡單地講，網格是把整個網路整合成一台巨大的超級計算機，實現計算資源、存儲資源、數據資源、信息資源、知識資源、專家資源的全面共享。

B. 神經網路演算法

20 世紀五、六⼗年代，科學家 Frank Rosenblatt其受到 Warren McCulloch 和 Walter Pitts早期的⼯作的影響，發明了感知機（Perceptrons）。

⼀個感知器接受⼏個⼆進制輸⼊，，並產⽣⼀個⼆進制輸出：

如上圖所示的感知機有三個輸⼊：。通常可以有更多或更少輸⼊。我們再引⼊權重：，衡量輸入對輸出的重要性。感知機的輸出為0 或者 1，則由分配權重後的總和⼩於等於或者⼤於閾值決定。和權重⼀樣，閾值（threshold）是⼀個實數，⼀個神經元的參數。⽤更精確的代數形式如下：

給三個因素設置權重來作出決定：

可以把這三個因素對應地⽤⼆進制變數來表⽰。例如，如果天⽓好，我們把

，如果不好，。類似地，如果你的朋友陪你去，，否則。也類似。

這三個對於可能對你來說，「電影好不好看」對你來說最重要，而天氣顯得不是那麼的重要。所以你會這樣分配權值：，然後定義閾值threshold=5。

現在，你可以使⽤感知器來給這種決策建⽴數學模型。

例如：

隨著權重和閾值的變化，你可以得到不同的決策模型。很明顯，感知機不是⼈做出決策使⽤的全部模型。但是這個例⼦說明了⼀個感知機如何能權衡不同的依據來決策。這看上去也可以⼤致解釋⼀個感知機⽹絡有時確實能夠做出一些不錯的決定。

現在我們隊上面的結構做一點變化，令b=-threshold，即把閾值移到不等號左邊，變成偏置，那麼感知器的規則可以重寫為:

引⼊偏置只是我們描述感知器的⼀個很⼩的變動，但是我們後⾯會看到它引導更進⼀步的符號簡化。因此，我們不再⽤閾值，⽽總是使⽤偏置。

感知機是首個可以學習的人工神經網路，它的出現引起的神經網路的第一層高潮。需要指出的是，感知機只能做簡單的線性分類任務，而且Minsky在1969年出版的《Perceptron》書中，證明了感知機對XOR（異或）這樣的問題都無法解決。但是感知機的提出，對神經網路的發展是具有重要意義的。

通過上面的感知機的觀察我們發現一個問題，每個感知機的輸出只有0和1，這就意味著有時我們只是在單個感知機上稍微修改了一點點權值w或者偏置b，就可能造成最終輸出完全的反轉。也就是說，感知機的輸出是一個階躍函數。如下圖所示，在0附近的時候，輸出的變化是非常明顯的，而在遠離0的地方，我們可能調整好久參數也不會發生輸出的變化。

這樣階躍的跳變並不是我們想要的，我們需要的是當我們隊權值w或者偏置b做出微小的調整後，輸出也相應的發生微小的改變芹則禪。這同時也意味值我們的輸出不再只是0和1，還可以輸出小數。由此我們引入了S型神經元。

S型神經元使用 S 型函數，也叫Sigmoid function函數，我們用它作為激活函數。其表達式如下：

圖像如下圖所示：

利⽤實際的 σ 函數，我們得到⼀個，就像上⾯說明的，平滑的感知器。 σ 函數的平滑特性，正是關鍵因素，⽽不是其細部形式盯明。 σ 的平滑意味著權重和偏置的微⼩變化，即 ∆w 和 ∆b，會從神經元產⽣⼀個微⼩的輸出變化 ∆output。實際上，微積分告訴我們

∆output 可以很好地近似表⽰為：

上面的式子是⼀個反映權重、偏置變化嫌塵和輸出變化的線性函數。這⼀線性使得我們可以通過選擇權重和偏置的微⼩變化來達到輸出的微⼩變化。所以當 S 型神經元和感知器本質上是相同的，但S型神經元在計算處理如何變化權重和偏置來使輸出變化的時候會更加容易。

有了對S型神經元的了解，我們就可以介紹神經網路的基本結構了。具體如下：

在⽹絡中最左邊的稱為輸⼊層，其中的神經元稱為輸⼊神經元。最右邊的，即輸出層包含有輸出神經元，在圖中，輸出層只有⼀個神經元。中間層，既然這層中的神經元既不是輸⼊也不是輸出，則被稱為隱藏層。

這就是神經網路的基本結構，隨著後面的發展神經網路的層數也隨之不斷增加和復雜。

我們回顧一下神經網路發展的歷程。神經網路的發展歷史曲折盪漾，既有被人捧上天的時刻，也有摔落在街頭無人問津的時段，中間經歷了數次大起大落。

從單層神經網路（感知機）開始，到包含一個隱藏層的兩層神經網路，再到多層的深度神經網路，一共有三次興起過程。詳見下圖。

我們希望有⼀個演算法，能讓我們找到權重和偏置，以⾄於⽹絡的輸出 y(x) 能夠擬合所有的訓練輸⼊ x。為了量化我們如何實現這個⽬標，我們定義⼀個代價函數：

這⾥ w 表⽰所有的⽹絡中權重的集合， b 是所有的偏置， n 是訓練輸⼊數據的個數，
a 是表⽰當輸⼊為 x 時輸出的向量，求和則是在總的訓練輸⼊ x 上進⾏的。當然，輸出 a 取決於 x, w和 b，但是為了保持符號的簡潔性，我沒有明確地指出這種依賴關系。符號 ∥v∥ 是指向量 v 的模。我們把 C 稱為⼆次代價函數；有時也稱被稱為均⽅誤差或者 MSE。觀察⼆次代價函數的形式我們可以看到 C(w, b) 是⾮負的，因為求和公式中的每⼀項都是⾮負的。此外，代價函數 C(w,b)的值相當⼩，即 C(w; b) ≈ 0，精確地說，是當對於所有的訓練輸⼊ x， y(x) 接近於輸出 a 時。因

此如果我們的學習演算法能找到合適的權重和偏置，使得 C(w; b) ≈ 0，它就能很好地⼯作。相反，當 C(w; b) 很⼤時就不怎麼好了，那意味著對於⼤量地輸⼊， y(x) 與輸出 a 相差很⼤。因此我們的訓練演算法的⽬的，是最⼩化權重和偏置的代價函數 C(w; b)。換句話說，我們想要找到⼀系列能讓代價盡可能⼩的權重和偏置。我們將采⽤稱為梯度下降的演算法來達到這個⽬的。

下面我們將代價函數簡化為C(v)。它可以是任意的多元實值函數，。
注意我們⽤ v 代替了 w 和 b 以強調它可能是任意的函數，我們現在先不局限於神經⽹絡的環境。

為了使問題更加簡單我們先考慮兩個變數的情況，想像 C 是⼀個只有兩個變數和的函數，我們的目的是找到和使得C最小。

如上圖所示，我們的目的就是找到局部最小值。對於這樣的一個問題，一種方法就是通過微積分的方法來解決，我們可以通過計算導數來求解C的極值點。但是對於神經網路來說，我們往往面對的是非常道的權值和偏置，也就是說v的維數不只是兩維，有可能是億萬維的。對於一個高維的函數C(v)求導數幾乎是不可能的。

在這種情況下，有人提出了一個有趣的演算法。想像一下一個小球從山頂滾下山谷的過程，我們的⽇常經驗告訴我們這個球最終會滾到⾕底。我們先暫時忽略相關的物理定理，對球體的⾁眼觀察是為了激發我們的想像⽽不是束縛我們的思維。因此與其陷進物理學⾥凌亂的細節，不如我們就這樣問⾃⼰：如果我們扮演⼀天的上帝，能夠構造⾃⼰的物理定律，能夠⽀配球體可以如何滾動，那麼我們將會採取什麼樣的運動學定律來讓球體能夠總是滾落到⾕底呢？

為了更精確地描述這個問題，讓我們思考⼀下，當我們在和⽅向分別將球體移動⼀個很⼩的量，即 ∆ 和 ∆ 時，球體將會發⽣什麼情況。微積分告訴我們 C 將會有如下變化：

也可以用向量表示為

現在我們的問題就轉換為不斷尋找一個小於0的∆C，使得C+∆C不斷變小。

假設我們選取：

這⾥的 η 是個很⼩的正數（稱為學習速率），於是

由於 ∥∇C∥2 ≥ 0，這保證了 ∆C ≤ 0，即，如果我們按照上述⽅程的規則去改變 v，那麼 C
會⼀直減⼩，不會增加。

所以我們可以通過不斷改變v來C的值不斷下降，是小球滾到最低點。

總結⼀下，梯度下降演算法⼯作的⽅式就是重復計算梯度 ∇C，然後沿著相反的⽅向移動，沿著⼭⾕「滾落」。我們可以想像它像這樣：

為了使梯度下降能夠正確地運⾏，我們需要選擇合適的學習速率η，確保C不斷減少，直到找到最小值。

知道了兩個變數的函數 C 的梯度下降方法，我們可以很容易的把它推廣到多維。我們假設 C 是⼀個有 m 個變數的多元函數。 ∆C 將會變為：

其中， ∇C為

∆v為：

更新規則為：

在回到神經網路中，w和b的更新規則為：

前面提到神經⽹絡如何使⽤梯度下降演算法來學習他們⾃⾝的權重和偏置。但是，這⾥還留下了⼀個問題：我們並沒有討論如何計算代價函數的梯度。這里就需要用到一個非常重要的演算法：反向傳播演算法（backpropagation）。

反向傳播演算法的啟示是數學中的鏈式法則。

四個方程：

輸出層誤差方程：

當前層誤差方程：

誤差方程關於偏置的關系：

誤差方程關於權值的關系

演算法描述：

檢視這個演算法，你可以看到為何它被稱作反向傳播。我們從最後⼀層開始向後計算誤差向量δ。這看起來有點奇怪，為何要從後⾯開始。但是如果你認真思考反向傳播的證明，這種反向移動其實是代價函數是⽹絡輸出的函數的結果。為了理解代價隨前⾯層的權重和偏置變化的規律，我們需要重復作⽤鏈式法則，反向地獲得需要的表達式。

參考鏈接： http://neuralnetworksanddeeplearning.com/

導航:首頁 > 源碼編譯 > 神經網路演算法視頻

神經網路演算法視頻

與神經網路演算法視頻相關的資料