學習演算法梯度_機器學習中的降維演算法和梯度下降法

A. 梯度下降法是什麼

梯度下降法，是一種基於搜索的最優化方法，它其實不是一個機器學習演算法，但是在機器學習領域，許多演算法都是以梯度下降法為基礎的，它的主要作用是尋找目標函數的最優解。

在求解損失函數的最小值時，可以通過梯度下降法來一步步的迭代求解，得到最小化的損失函數和模型參數值。反過來，如果我們需要求解損失函數的最大值，這時就需要用梯度上升法來迭代了。在機器學習中，基於基本的梯度下降法發展了兩種梯度下降方法，分別為隨機梯度下降法和批量梯度下降法。

常用的梯度下降法有3種不同的形式：

（1）批量梯度下降法，簡稱 BGD，使用所有樣本，比較耗時；

（2）隨機梯度下降法，簡稱 SGD，隨機選擇一個樣本，簡單高效；

（3）小批量梯度下降法，簡稱 MBGD，使用少量的樣本，這是一個折中的辦法。

B. 極限機學習和梯度學習演算法的區別

梯度下降法是一個最優化演算法，通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一，雖然現在已經不具有實用性，但是許多有效演算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的，最速下降法越接近目標值，步長越小，前進越慢。
梯度下降法(gradient descent)是一個最優化演算法，通常也稱為最速下降法。
常用於機器學習和人工智慧當中用來遞歸性地逼近最小偏差模型。
顧名思義，梯度下降下法的計算過程就是沿遞度下降的方向求解極小值（也可以沿遞度上升方向求解極大值）。
其迭代公式為

,其中

代表梯度負方向，

表示梯度方向上的搜索步長。梯度方向我們可以通過對函數求導得到，步長的確定比較麻煩，太大了的話可能會發散，太小收斂速度又太慢。一般確定步長的方法是由線性搜索演算法來確定，即把下一個點的坐標ak+1看做是的函數，然後求滿足f(ak+1)的最小值的即可。
因為一般情況下，梯度向量為0的話說明是到了一個極值點，此時梯度的幅值也為0.而採用梯度下降演算法進行最優化求解時，演算法迭代的終止條件是梯度向量的幅值接近0即可，可以設置個非常小的常數閾值。

C. BP學習演算法是什麼類型的學習演算法它主要有哪些不足

BP演算法是由學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。由於多層前饋網路的訓練經常採用誤差反向傳播演算法，人們也常把將多層前饋網路直接稱為BP網路。

雖然BP演算法得到廣泛的應用，但它也存在不足，其主要表現在訓練過程不確定上，具體如下。

1，訓練時間較長。對於某些特殊的問題，運行時間可能需要幾個小時甚至更長，這主要是因為學習率太小所致，可以採用自適應的學習率加以改進。

2，完全不能訓練。訓練時由於權值調整過大使激活函數達到飽和，從而使網路權值的調節幾乎停滯。為避免這種情況，一是選取較小的初始權值，二是採用較小的學習率。

3，易陷入局部極小值。BP演算法可以使網路權值收斂到一個最終解，但它並不能保證所求為誤差超平面的全局最優解，也可能是一個局部極小值。

這主要是因為BP演算法所採用的是梯度下降法，訓練是從某一起始點開始沿誤差函數的斜面逐漸達到誤差的最小值，故不同的起始點可能導致不同的極小值產生，即得到不同的最優解。如果訓練結果未達到預定精度，常常採用多層網路和較多的神經元，以使訓練結果的精度進一步提高，但與此同時也增加了網路的復雜性與訓練時間。

4，「喜新厭舊」。訓練過程中，學習新樣本時有遺忘舊樣本的趨勢。

(3)學習演算法梯度擴展閱讀：

BP演算法最早由Werbos於1974年提出，1985年Rumelhart等人發展了該理論。BP網路採用有指導的學習方式，其學習包括以下4個過程。

1，組成輸入模式由輸入層經過隱含層向輸出層的「模式順傳播」過程。

2，網路的期望輸出與實際輸出之差的誤差信號由輸出層經過隱含層逐層休整連接權的「誤差逆傳播」過程。

3，由「模式順傳播」與「誤差逆傳播」的反復進行的網路「記憶訓練」過程。

4，網路趨向收斂即網路的總體誤差趨向極小值的「學習收斂」過程。

D. 神經網路演算法-梯度下降GradientDescent

神經網路文章索引

上一篇神經網路結構中，我們介紹了神經元的結構，激活函數以及每個神經元激活值的演算法，涉及到權重、偏置值等。

上一篇結尾提到，對於28*28的黑白手寫圖像識別，我們需要13002個權重和偏置數值，才能讓我們的神經網路最後輸出正確結果。

所謂的機器學習，就是尋找這13002個數值的過程。首先這里有兩點需要注意：

在負無窮到正無窮之間，如何獲得一萬多個數字最佳的匹配值？這比在全世界挑選1萬人讓TA們一起相愛還要難。

我們的做法是用計算機強大運算速度，暴力解決問題。

好了，現在，暴力不是問題，要想出奇跡的關鍵就在於如何找到如何 優化的規律 。

要想做優化，首先要明確目標，找到當前神經網路和期望結果之間的差距。

從下圖可以看到，隨機設定的神經網路最終輸出的是混亂的一層（被黃色線框標出），距離最右邊我們期望只點亮神經元3的情況差距很大。

我們把混亂輸出層的每個神經元與期望層每個對應神經元激活值相減，然後平方，再累加在一起，這就是方差cost代價，如下圖，計算得到cost是3.37。

我們用這個cost來表示當前神經網路13002個設定值和期望設定值之間的差距，當然，這個cost等於0是差距最小，也就是最接近期望設定值。——當然這只是針對數字3的1張圖片來說，我們需要的是針對0~9共10個數字的數萬張圖片，cost都能是最小。

從下圖，我們來看一下神經網路的功能。它能利用13002個設定值經過3層神經元激活值的計算，把784個像素亮度變為10個數字（我們期望這10個數字中只有一個是1，其他都是0）。

這13002個權重和偏置數字，加上激活值的演算法，就是神經網路的「想法」。

我們再來看看代價函數的情況，如下圖，它是利用很多很多的訓練圖片（已經明確了對應的數字），把13002個數字變為1個cost代價數。

寫成函數形式

我們假設最簡單的情況，只有1個權重和1個偏置：

x和y是任意可能的數值，我們希望知道當x和y是什麼數值的時候z最小。

每一組[x,y]都對應唯一的z，我們可以假想，有無數個[x,y,z]這樣的位置點，在三維空間坐標中，它們就會組成一個面（曲面或平面），如下圖。

從幾何意義上看，我們就是要找到凹陷最低的那個位置點的x,y的值，因為那裡z也就是cost代價最低。

假設上面的xyz繪制的cost曲面是個山地，你是一個旅行者，需要行走找到最低點的位置，你會怎麼辦？

沒錯，只要一直往下走，那麼就能走到所在區域的最低點。——當然，如果山後面還有更深的山谷，那麼你可能找到的只是局部最低點，而並非世界最低點。

實際上，對於復雜的超多維度來說，找到世界最低點幾乎是不可能任務。我們唯一能做的就是多找幾個局部最低點，然後選擇其中最低的那個。

同樣，如果我們落腳在[x',y']，那麼可以嘗試對比[x'+0.1，y']，[x'-0.1，y'],[x'，y'-0.1],[x'，y'+0.1],如果[x'+0.1,y']是最低的，那麼我們就走到這里，然後繼續嘗試對比四周點的高度。這就是梯度下降的演算法。

如下圖，我們沿著虛線一步一步下山找到最低點。

首先快速的從下圖了解幾個基本概念。
下圖的弧線表示的是某個函數y=f(x)，比如拋物線方程y=x 2 。
曲線上任取兩個點a,b，它們對應x和x+dx。（d是指德爾塔大寫Δ，小寫δ）
ab兩點對應的y的差是dy。
現在直線ab看上去是曲線的割線（有ab兩個交點）。
假設b點沿著曲線，越來越靠近a點，那麼dx極限趨近於0，這時候dy也會越來越小趨近於0，但是！我們會意識到dy/dx永遠不會是0，而最終它仍然是角∠cab的對邊比鄰邊，也就是正切三角函數值。
實際上，這也正是曲線的切線的定義。
可以想像，我們取的a點越是靠右，那麼這個切線越是豎直。
如果我們把這個切線看做表示某個一次方程，如y=mx+n這種形式，那麼a點越靠右，直線越豎直，m值也就越大。
我們把m值叫做直線的斜率。

導數derivative ，一元函數y=f(x)（即因變數y只受到一個自變數x影響的函數）中任意取x，如果x增加極小趨近於0的Δx（或者寫為dx),那麼y相應的被增加Δy（或者寫作dy），那麼導數就是dy/dx，而又有dy=f(x+dx)-f(x)，所以：

從函數的曲線圖上可以看到，某點的導數就是dx趨近於0時候∠cab的正切，導數反映了切線的陡峭程度，也就是y隨著x變化的快慢程度。

微分differential ，簡單說就是Δx和Δy，或者記作dx和dy。x稱之為自變數，y稱之為因變數，那麼x趨近於最小的時候的值，就是x的微分（趨近0又不是0的那個神秘值），同樣y的微分也是這個意思，總之是想得到又摸不到的神奇值。

斜率slope ，一元一次函數（直線方程）y=mx+n的系數m值。在這里就是a點的導數值f'(x)。

切線tangent ，某個點a的切線，就是經過a點的，以A點斜率為系數的方程y=f'(x)x+n所表示的直線。

自變數dependent variable和因變數 independent variable ，x自己的變化，引發y被動變化。

好了，我們來看 多變數微分Multivariable differential 。

上面都是一個y收到一個x的影響y=f(x)，多變數就是不止受到一個自變數的影響，我們以最簡單的z=f(x,y)為例，z=x 2 +y 2 。

綠軸x的變化和紅軸y的變化，都會對應藍軸z的變化。
x從負無窮到正無窮無限種可能，y也是無限種可能，x和y復合到一起就在水平方向覆蓋了全部地面，z值有高有低，就像現實世界中的海拔一樣，把xy平面凸起或凹陷。（圖中粉色沒有畫出全部曲面）

我們可以想像，這時候不能討論A點的切線了，而應該考慮它的 切平面tangent plane （下圖綠色平面）。

方向導數directional derivative ，就是曲面上過A點的任意曲線的切線（下圖紫色線）組成的平面，就是切平面。

這么多紫色的方向中，哪一個方向最陡峭？對於這個z=x 2 +y 2 函數來說，明顯是最接近豎直朝上的那個箭頭和最接近豎直朝下的那個箭頭。
和曲線一樣道理，越陡峭意味著z對x、y的變化越敏感，或者說dx、dy的變化會引發更多的dz。
梯度gradient ，我們規定，能夠引發因變數最快變化的那個切線正方向，就叫做曲面方程上這個點的梯度。注意梯度是個xyz表示的三維方向，例如[0，0，1]表示z軸豎直向上，[0.1,0.1,1]就往xy的正方向偏一點點。

對於只有xy兩個變數的三維曲面來說，我們還可以只是考慮x+0.1,x-0.1,y+0.1,y-0.1這樣的試探方法找到最低點，只要2*2=4次就可以了，周全一點也就8次。

但是對於我們手寫數字識別中13002個自變數來說，那就要2 13002 次，這是不可行的。

借用多元微分，我們可以找到13002個自變數某一隨機點對應的切平面（實際早已不是什麼平面了，我們姑且這么說），也可以計算出其中變化最快的方向，就是梯度，數學家已經證明，不管多少個維度，沿著梯度往前走一步，都能獲得最快變化後新的一個點，這個點是一個n維向量，對於我們的案例來說就是13003個新數字組成的數組[0.322,0.123,0.55,0.222,...0.233]共13003個數字。

唯一要說明的一點不同就是，為了找最低點，我們不是往上走，而是往相反的負方向，朝下走。

步長step size ，就是我們每次沿著 負梯度 往下走多遠，在機器學習演算法裡面它叫做 學習率learning rate ，同樣道理，步子邁小了走得太慢，找到最低點耗時間太久，步子太大了容易跳過最低點（注意，1萬多維的復雜情況不是我們上面三維漏斗曲面那麼簡單可以描述的）。所以我們經常設置0.00001這樣小的數字，好在很多機器學習程序都會適當的自動調整它（比如Tensorflow中的梯度下降優化GradientDescentOptimizer），實際上不會讓它太慢。

同時，我們從上圖中看到，計算出的負梯度是由很多數字組成的數組，每個數字代表一個維度（就像xy那樣），所以我們只要在原來的位置點坐標（比如[x,y]）上分別把這個梯度（比如[0.1,-0.3])加上去就能得到新的點([x+0.1,y-0.3])。

內容小結

如果您發現文章錯誤，請不吝留言指正；
如果您覺得有用，請點喜歡；
如果您覺得很有用，感謝轉發~

END

E. 梯度的計算公式是什麼

梯度的計算公式：gra=aₓ（∂u/∂x）+aᵧ（∂u/∂y）+az（∂u/∂z）

梯度的本意是一個向量（矢量），表示某一函數在該點處的方向導數沿著該方向取得最大值，即函數在該點處沿著該方向（此梯度的方向）變化最快，變化率最大（為該梯度的模）。

(5)學習演算法梯度擴展閱讀：

在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐幾里得空間Rn到R的函數的梯度是在Rn某一點最佳的線性近似。在這個意義上，梯度是雅可比矩陣的特殊情況。

在單變數的實值函數的情況，梯度只是導數，或者，對於一個線性函數，也就是線的斜率。

F. 機器學習中的降維演算法和梯度下降法

機器學習中有很多演算法都是十分經典的，比如說降維演算法以及梯度下降法，這些方法都能夠幫助大家解決很多問題，因此學習機器學習一定要掌握這些演算法，而且這些演算法都是比較受大家歡迎的。在這篇文章中我們就給大家重點介紹一下降維演算法和梯度下降法。
降維演算法
首先，來說一說降維演算法，降維演算法是一種無監督學習演算法，其主要特徵是將數據從高維降低到低維層次。在這里，維度其實表示的是數據的特徵量的大小，當特徵量大的話，那麼就給計算機帶來了很大的壓力，所以我們可以通過降維計算，把維度高的特徵量降到維度低的特徵量，比如說從4維的數據壓縮到2維。類似這樣將數據從高維降低到低維有兩個好處，第一就是利於表示，第二就是在計算上也能帶來加速。
當然，有很多降維過程中減少的維度屬於肉眼可視的層次，同時壓縮也不會帶來信息的損失。但是如果肉眼不可視，或者沒有冗餘的特徵，這怎麼辦呢？其實這樣的方式降維演算法也能工作，不過這樣會帶來一些信息的損失。不過，降維演算法可以從數學上證明，從高維壓縮到的低維中最大程度地保留了數據的信息。所以說，降維演算法還是有很多好處的。
那麼降維演算法的主要作用是什麼呢？具體就是壓縮數據與提升機器學習其他演算法的效率。通過降維演算法，可以將具有幾千個特徵的數據壓縮至若干個特徵。另外，降維演算法的另一個好處是數據的可視化。這個優點一直別廣泛應用。
梯度下降法
下面我們給大家介紹一下梯度下降法，所謂梯度下降法就是一個最優化演算法，通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一，雖然現在已經不具有實用性，但是許多有效演算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的，最速下降法越接近目標值，步長越小，前進越慢。好比將函數比作一座山，我們站在某個山坡上，往四周看，從哪個方向向下走一小步，能夠下降的最快;當然解決問題的方法有很多，梯度下降只是其中一個，還有很多種方法。
在這篇文章中我們給大家介紹了關於機器演算法中的降維演算法以及梯度下降法，這兩種方法是機器學習中十分常用的演算法，降維演算法和梯度下降法都是十分實用的，大家在進行學習機器學習的時候一定要好好學習這兩種演算法，希望這篇文章能夠幫助大家理解這兩種演算法。

導航:首頁 > 源碼編譯 > 學習演算法梯度

學習演算法梯度

與學習演算法梯度相關的資料