梯度下降演算法怎麼寫_什麼是梯度下降演算法

⑴ 梯度下降法是什麼

梯度下降法（英語：Gradient descent）是一個一階最優化演算法，通常也稱為最陡下降法。

要使用梯度下降法找到一個函數的局部極小值，必須向函數上當前點對應梯度（或者是近似梯度）的反方向的規定步長距離點進行迭代搜索。如果相反地向梯度正方向迭代進行搜索，則會接近函數的局部極大值點；這個過程則被稱為梯度上升法。

梯度下降一般歸功於柯西，他在 1847 年首次提出它。Hadamard在 1907 年獨立提出了類似的方法。Haskell Curry在 1944 年首先研究了它對非線性優化問題的收斂性，隨著該方法在接下來的幾十年中得到越來越多的研究和使用，通常也稱為最速下降。

梯度下降適用於任意維數的空間，甚至是無限維的空間。在後一種情況下，搜索空間通常是一個函數空間，並且計算要最小化的函數的Fréchet 導數以確定下降方向。

梯度下降適用於任意數量的維度（至少是有限數量）可以看作是柯西-施瓦茨不等式的結果。那篇文章證明了任意維度的兩個向量的內（點）積的大小在它們共線時最大化。在梯度下降的情況下，當自變數調整的向量與偏導數的梯度向量成正比時。

修改

為了打破梯度下降的鋸齒形模式，動量或重球方法使用動量項，類似於重球在被最小化的函數值的表面上滑動，或牛頓動力學中的質量運動在保守力場中通過粘性介質。具有動量的梯度下降記住每次迭代時的解更新，並將下一次更新確定為梯度和前一次更新的線性組合。

對於無約束二次極小化，重球法的理論收斂速度界與最優共軛梯度法的理論收斂速度界漸近相同。

該技術用於隨機梯度下降，並作為用於訓練人工神經網路的反向傳播演算法的擴展。

⑵ 梯度下降法是什麼

梯度下降法（英語：Gradient descent）是一個一階最優化演算法，通常也稱為最陡下降法，但是不該與近似積分的最陡下降法（英語：Method of steepest descent）混淆。

要使用梯度下降法找到一個函數的局部極小值，必須向函數上當前點對應梯度（或者是近似梯度）的反方向的規定步長距離點進行迭代搜索。

如果相反地向梯度正方向迭代進行搜索，則會接近函數的局部極大值點；這個過程則被稱為梯度上升法。

梯度下降演算法使用當前位置的梯度迭代計算下一個點，然後對其進行縮放（按學習率）並從當前位置減去獲得的值（邁出一步）。它減去該值，因為我們想要最小化函數（最大化它會增加）。

缺點

梯度下降法的缺點包括：

1、靠近局部極小值時速度減慢。

2、直線搜索可能會產生一些問題。

3、可能會「之字型」地下降。

⑶ 梯度下降法原理和步驟

一、梯度法思想
梯度法思想的三要素：出發點、下降方向、下降步長。
機器學習中常用的權重更新表達式為
：，這里的λ就是學習率，本文從這個式子出發來把機器學習中的各種「梯度」下降法闡釋清楚。
機器學習目標函數，一般都是凸函數，什麼叫凸函數？限於篇幅，我們不做很深的展開，在這兒我們做一個形象的比喻，凸函數求解問題，可以把目標損失函數想像成一口鍋，來找到這個鍋的鍋底。非常直觀的想法就是，我們沿著初始某個點的函數的梯度方嚮往下走（即梯度下降）。在這兒，我們再作個形象的類比，如果把這個走法類比為力，那麼完整的三要素就是步長（走多少）、方向、出發點，這樣形象的比喻，讓我們對梯度問題的解決豁然開朗，出發點很重要，是初始化時重點要考慮的，而方向、步長就是關鍵。事實上不同梯度的不同就在於這兩點的不同！
梯度方向是

，步長設為常數Δ，這時就會發現，如果用在梯度較大的時候，離最優解比較遠，W的更新比較快；然而到了梯度較小的時候，也就是較靠近最優解的時候，W的更新竟然也保持著跟原來一樣的速率，這樣會導致W很容易更新過度反而遠離了最優解，進而出現在最優解附近來回震盪。所以，既然在遠離最優解的時候梯度大，在靠近最優解的時候梯度小，我們讓步長隨著這個律動，於是我我們就用λ|W|來代替Δ，最後得到了我們熟悉的式子：

所以說這時的λ是隨著坡度的陡緩而變化的，別看它是個常數。
二、全量梯度下降法（Batch gradient descent）
全量梯度下降法每次學習都使用整個訓練集，因此每次更新都會朝著正確的方向進行，最後能夠保證收斂於極值點，凸函數收斂於全局極值點，非凸函數可能會收斂於局部極值點，缺陷就是學習時間太長，消耗大量內存。
第二、隨機梯度下降法（Stochastic Gradient Descent）
SGD一輪迭代只用一條隨機選取的數據，盡管SGD的迭代次數比BGD大很多，但一次學習時間非常快。
SGD的缺點在於每次更新可能並不會按照正確的方向進行，參數更新具有高方差，從而導致損失函數劇烈波動。不過，如果目標函數有盆地區域，SGD會使優化的方向從當前的局部極小值點跳到另一個更好的局部極小值點，這樣對於非凸函數，可能最終收斂於一個較好的局部極值點，甚至全局極值點。
缺點是，出現損失函數波動，並且無法判斷是否收斂。

⑷ 神經網路演算法-梯度下降GradientDescent

神經網路文章索引

上一篇神經網路結構中，我們介紹了神經元的結構，激活函數以及每個神經元激活值的演算法，涉及到權重、偏置值等。

上一篇結尾提到，對於28*28的黑白手寫圖像識別，我們需要13002個權重和偏置數值，才能讓我們的神經網路最後輸出正確結果。

所謂的機器學習，就是尋找這13002個數值的過程。首先這里有兩點需要注意：

在負無窮到正無窮之間，如何獲得一萬多個數字最佳的匹配值？這比在全世界挑選1萬人讓TA們一起相愛還要難。

我們的做法是用計算機強大運算速度，暴力解決問題。

好了，現在，暴力不是問題，要想出奇跡的關鍵就在於如何找到如何 優化的規律 。

要想做優化，首先要明確目標，找到當前神經網路和期望結果之間的差距。

從下圖可以看到，隨機設定的神經網路最終輸出的是混亂的一層（被黃色線框標出），距離最右邊我們期望只點亮神經元3的情況差距很大。

我們把混亂輸出層的每個神經元與期望層每個對應神經元激活值相減，然後平方，再累加在一起，這就是方差cost代價，如下圖，計算得到cost是3.37。

我們用這個cost來表示當前神經網路13002個設定值和期望設定值之間的差距，當然，這個cost等於0是差距最小，也就是最接近期望設定值。——當然這只是針對數字3的1張圖片來說，我們需要的是針對0~9共10個數字的數萬張圖片，cost都能是最小。

從下圖，我們來看一下神經網路的功能。它能利用13002個設定值經過3層神經元激活值的計算，把784個像素亮度變為10個數字（我們期望這10個數字中只有一個是1，其他都是0）。

這13002個權重和偏置數字，加上激活值的演算法，就是神經網路的「想法」。

我們再來看看代價函數的情況，如下圖，它是利用很多很多的訓練圖片（已經明確了對應的數字），把13002個數字變為1個cost代價數。

寫成函數形式

我們假設最簡單的情況，只有1個權重和1個偏置：

x和y是任意可能的數值，我們希望知道當x和y是什麼數值的時候z最小。

每一組[x,y]都對應唯一的z，我們可以假想，有無數個[x,y,z]這樣的位置點，在三維空間坐標中，它們就會組成一個面（曲面或平面），如下圖。

從幾何意義上看，我們就是要找到凹陷最低的那個位置點的x,y的值，因為那裡z也就是cost代價最低。

假設上面的xyz繪制的cost曲面是個山地，你是一個旅行者，需要行走找到最低點的位置，你會怎麼辦？

沒錯，只要一直往下走，那麼就能走到所在區域的最低點。——當然，如果山後面還有更深的山谷，那麼你可能找到的只是局部最低點，而並非世界最低點。

實際上，對於復雜的超多維度來說，找到世界最低點幾乎是不可能任務。我們唯一能做的就是多找幾個局部最低點，然後選擇其中最低的那個。

同樣，如果我們落腳在[x',y']，那麼可以嘗試對比[x'+0.1，y']，[x'-0.1，y'],[x'，y'-0.1],[x'，y'+0.1],如果[x'+0.1,y']是最低的，那麼我們就走到這里，然後繼續嘗試對比四周點的高度。這就是梯度下降的演算法。

如下圖，我們沿著虛線一步一步下山找到最低點。

首先快速的從下圖了解幾個基本概念。
下圖的弧線表示的是某個函數y=f(x)，比如拋物線方程y=x 2 。
曲線上任取兩個點a,b，它們對應x和x+dx。（d是指德爾塔大寫Δ，小寫δ）
ab兩點對應的y的差是dy。
現在直線ab看上去是曲線的割線（有ab兩個交點）。
假設b點沿著曲線，越來越靠近a點，那麼dx極限趨近於0，這時候dy也會越來越小趨近於0，但是！我們會意識到dy/dx永遠不會是0，而最終它仍然是角∠cab的對邊比鄰邊，也就是正切三角函數值。
實際上，這也正是曲線的切線的定義。
可以想像，我們取的a點越是靠右，那麼這個切線越是豎直。
如果我們把這個切線看做表示某個一次方程，如y=mx+n這種形式，那麼a點越靠右，直線越豎直，m值也就越大。
我們把m值叫做直線的斜率。

導數derivative ，一元函數y=f(x)（即因變數y只受到一個自變數x影響的函數）中任意取x，如果x增加極小趨近於0的Δx（或者寫為dx),那麼y相應的被增加Δy（或者寫作dy），那麼導數就是dy/dx，而又有dy=f(x+dx)-f(x)，所以：

從函數的曲線圖上可以看到，某點的導數就是dx趨近於0時候∠cab的正切，導數反映了切線的陡峭程度，也就是y隨著x變化的快慢程度。

微分differential ，簡單說就是Δx和Δy，或者記作dx和dy。x稱之為自變數，y稱之為因變數，那麼x趨近於最小的時候的值，就是x的微分（趨近0又不是0的那個神秘值），同樣y的微分也是這個意思，總之是想得到又摸不到的神奇值。

斜率slope ，一元一次函數（直線方程）y=mx+n的系數m值。在這里就是a點的導數值f'(x)。

切線tangent ，某個點a的切線，就是經過a點的，以A點斜率為系數的方程y=f'(x)x+n所表示的直線。

自變數dependent variable和因變數 independent variable ，x自己的變化，引發y被動變化。

好了，我們來看 多變數微分Multivariable differential 。

上面都是一個y收到一個x的影響y=f(x)，多變數就是不止受到一個自變數的影響，我們以最簡單的z=f(x,y)為例，z=x 2 +y 2 。

綠軸x的變化和紅軸y的變化，都會對應藍軸z的變化。
x從負無窮到正無窮無限種可能，y也是無限種可能，x和y復合到一起就在水平方向覆蓋了全部地面，z值有高有低，就像現實世界中的海拔一樣，把xy平面凸起或凹陷。（圖中粉色沒有畫出全部曲面）

我們可以想像，這時候不能討論A點的切線了，而應該考慮它的 切平面tangent plane （下圖綠色平面）。

方向導數directional derivative ，就是曲面上過A點的任意曲線的切線（下圖紫色線）組成的平面，就是切平面。

這么多紫色的方向中，哪一個方向最陡峭？對於這個z=x 2 +y 2 函數來說，明顯是最接近豎直朝上的那個箭頭和最接近豎直朝下的那個箭頭。
和曲線一樣道理，越陡峭意味著z對x、y的變化越敏感，或者說dx、dy的變化會引發更多的dz。
梯度gradient ，我們規定，能夠引發因變數最快變化的那個切線正方向，就叫做曲面方程上這個點的梯度。注意梯度是個xyz表示的三維方向，例如[0，0，1]表示z軸豎直向上，[0.1,0.1,1]就往xy的正方向偏一點點。

對於只有xy兩個變數的三維曲面來說，我們還可以只是考慮x+0.1,x-0.1,y+0.1,y-0.1這樣的試探方法找到最低點，只要2*2=4次就可以了，周全一點也就8次。

但是對於我們手寫數字識別中13002個自變數來說，那就要2 13002 次，這是不可行的。

借用多元微分，我們可以找到13002個自變數某一隨機點對應的切平面（實際早已不是什麼平面了，我們姑且這么說），也可以計算出其中變化最快的方向，就是梯度，數學家已經證明，不管多少個維度，沿著梯度往前走一步，都能獲得最快變化後新的一個點，這個點是一個n維向量，對於我們的案例來說就是13003個新數字組成的數組[0.322,0.123,0.55,0.222,...0.233]共13003個數字。

唯一要說明的一點不同就是，為了找最低點，我們不是往上走，而是往相反的負方向，朝下走。

步長step size ，就是我們每次沿著 負梯度 往下走多遠，在機器學習演算法裡面它叫做 學習率learning rate ，同樣道理，步子邁小了走得太慢，找到最低點耗時間太久，步子太大了容易跳過最低點（注意，1萬多維的復雜情況不是我們上面三維漏斗曲面那麼簡單可以描述的）。所以我們經常設置0.00001這樣小的數字，好在很多機器學習程序都會適當的自動調整它（比如Tensorflow中的梯度下降優化GradientDescentOptimizer），實際上不會讓它太慢。

同時，我們從上圖中看到，計算出的負梯度是由很多數字組成的數組，每個數字代表一個維度（就像xy那樣），所以我們只要在原來的位置點坐標（比如[x,y]）上分別把這個梯度（比如[0.1,-0.3])加上去就能得到新的點([x+0.1,y-0.3])。

內容小結

如果您發現文章錯誤，請不吝留言指正；
如果您覺得有用，請點喜歡；
如果您覺得很有用，感謝轉發~

END

⑸ 梯度下降法是什麼

梯度下降法是一個一階最優化演算法，通常也稱為最陡下降法，但是不該與近似積分的最陡下降法（英語：Method of steepest descent）混淆。

注意事項

從數學上的角度來看，梯度的方向是函數增長速度最快的方向，那麼梯度的反方向就是函數減少最快的方向。那麼，如果想計算一個函數的最小值，就可以使用梯度下降法的思想來做。

注意得到的函數臨界點，臨界點並不一定是全局最大值或者全局最小值，甚至不是局部的最大值或者局部最小值。

⑹ 梯度下降的求解過程

顧名思義，梯度下降法的計算過程就是沿梯度下降的方向求解極小值（也可以沿梯度上升方向求解極大值）。
其迭代公式為 ,其中代表梯度負方向，表示梯度方向上的搜索步長。梯度方向我們可以通過對函數求導得到，步長的確定比較麻煩，太大了的話可能會發散，太小收斂速度又太慢。一般確定步長的方法是由線性搜索演算法來確定，即把下一個點的坐標ak+1看做是的函數，然後求滿足f(ak+1)的最小值的即可。
因為一般情況下，梯度向量為0的話說明是到了一個極值點，此時梯度的幅值也為0.而採用梯度下降演算法進行最優化求解時，演算法迭代的終止條件是梯度向量的幅值接近0即可，可以設置個非常小的常數閾值。

⑺ 梯度下降演算法

方向導數反映是函數沿著其自變數空間某個方向變化的快慢程度，眾所周知如果沿著某個方向其導數越大說明沿著這個方向函數值變化的越猛烈。
設若有函數，其自變數的空間是個三維空間，如果我們要求沿著x,y,z三條坐標軸的變化率直接求其偏導數就可即：
這個其實就是函數的梯度，那麼方向導數又是什麼嘞？
假設我們沿著的自變數所在的三維空間的原點做一條射線，那麼沿著射線這個方向其函數的變化情況有如何？，這里說的沿著這條射線的方向變化是說(x,y,z)在變化之前滿足的過點(x,y,z)且平行於的空間直線方程，其變化之後依舊滿足直線方程，這個時候就要用到方向導數
假設有其自變數一維的函數那麼其導數為:

其實導數的本質意義可以從不同的方面去理解，高中我們理解的是切線斜率。大學了當然就應該還有其他的理解，我們現在從導數的結構上去理解，導數就是是用自變數的變化程度去衡量函數的變化程度，兩者相比，分子是變數的變化程度，分母是函數的變化程度，那麼為什麼要去取極限嘞？其實還可以有不同的理解，假設還有一個函數是如果我們要比較的函數變化情況的話，顯然在全局上我們是不好進行比較的，因為兩個函數都變化的很豐富，都是有平坦有陡峭，我們不好去量化函數在某一個取值范圍的變化情況，但是當自變數的區間很小的時候我們就有可能能夠衡量兩函數曲線的變化情況，所以取到極限就是某一點的變化情況，某一點的情況也就可以用斜率的絕對值來衡量了。知道了導數定義的結構，我們也就可以用這樣的結構來定義沿著自變數空間或者平面的任何一個方向的函數變化情況了。
因此我們可以這樣來定義自變數n維空間的時候函數的變化情況：

我們可以推導出上面導數的具體表達式這里以三維變數空間為例子：

是射線的方向餘弦，也就是其方向與三坐標軸夾角的餘弦
而就是梯度，那麼接下來我們看看到底沿著那個方向其方向導數最大，也就是說沿著哪個方向其函數的變化最劇烈
顯然
即方向導數等於方向餘弦向量與梯度的內積，假設記記
那麼
顯然當與梯度向量的方向一致的時候此時方向導數的取得最大值這時候函數沿著這個方向增大的最快，方向相反的時候取最小值這時候沿著這個方向減小的最快，也即函數在某一點出沿著梯度向量的方向是變化最劇烈的地方,實際上梯度是函數在點(x,y,z)的方向餘弦，而梯度下降就意味著更新參數的時候是
可能有的同學說我用梯度下降就不沿著梯度方向迭代，我想往哪個方向就往哪個方向，理論上是有可能達到最小值和局部極小值，而且達到最小值的時候方向導數也是零，但是只是可能，可能沿著某一個方向下降的時候你無數次和你的命中註定擦肩而過，達不到最小值也達不到極小值，達到的時候還有可能是個偽局部極小值，這時候就麻煩了，而且你還要自己設定方向餘弦。
而用梯度下降的好處就在於沒迭代一次他會自動調整迭代的方向，這樣就可以保證每次下降的方向都是函數值減小最劇烈的方向，能夠保證損失函數值每次的迭代都是在單調不增。保證能夠收斂到某個極值點，至於這個極值點是不是最小值點這個另當別論。

線性回歸的假設函數如下:
假設有m個樣本

這裡面的也就代表著梯度下降的時候參數調整的幅度是多少，大家如果是剛學梯度下降的時候肯定對參這個式子有疑慮：

圖中可以了解到極小值點圖中也是最小值點的左邊其導數為負號，右邊其導數為正號。導數為負的時候如果迭代式子那麼意味參數值左移損失函數值遠離極小值，導數值取整數也一樣是原理，所以取負號的原因就是首先讓參數更新之後的值使得損失函數值有靠近極小值點的趨勢

學習率的選取並不是固定的，而是要根據具體情況具體分析，學習率過大的話會導致參數迭代之後越過極小值點，如過損失函數是一個關於極小值點對稱的話，一次迭代越過極小值，第二次迭代至越過的對稱位置，這就很麻煩，收斂的值不是極小值，還會誤解為極小值。如果學習率選取過小，很有可能因為迭代步長很小導致迭代次數無限多。

梯度下降法迭代更新參數取得的值不一定是極小值(迭代收斂的值，因為迭代至接近極值點出其梯度會消失)或者是最小值，但是梯度下降法的學習率和激活函數以及參數的初始化選取得當是一定會收斂至極小值的也有可能是最小值，正因為如此我們有時候或許可以多選擇幾個學習率，或者是多選取幾批次初始化值，然後得到損失函數值相對最小的就可以了。

⑻ 隨機梯度下降演算法

以線性回歸為例：
預測函數為：

代價函數：

重復：{

}

當數據量過大時，梯度下降的演算法會變得很慢，因為要對所有的數據進行求和。因為每次重復梯度下降都是所有數據全部求和，所以梯度下降演算法又稱之為 批量梯度下降（Batch Gradient Descent）

隨機梯度下降在每一次迭代中，不用考慮全部的樣本，只需要考慮一個訓練樣本。

針對一個樣本，它的代價函數：

而針對所有樣本的代價函數可以看作是對每個樣本代價函數的平均：

隨機梯度下降演算法如下：
第一步，先隨機打亂訓練集樣本。
第二步，進行梯度下降：
重復 {
循環所有樣本 for i=1,2,3,...,m {

}
}

一開始隨機打亂數據是為了對樣本集的訪問是隨機的，會讓梯度下降的速度快一點。

該演算法一次訓練一個樣本，對它的代價函數進行一小步梯度下降，修改參數，使得它對該樣本的擬合會好一點；然後再對下一個樣本進行運算，直到掃描完所有的訓練樣本，最後外部在迭代這個過程。

跟批量梯度下降演算法不同的是，隨機梯度下降不需要等到所有樣本求和來得到梯度項，而是在對每個樣本就可以求出梯度項，在對每個樣本掃描的過程中就已經在優化參數了。

在梯度下降過程中，批量梯度下降的過程趨向於一條直線，直接收斂到全局最小值；而隨機梯度下降不太可能收斂到全局最小值，而是隨機地在其周圍震盪，但通常會很接近最小值。

隨機梯度下降通常需要經過1-10次外部循環才能接近全局最小值。

在批量梯度下降中，要判斷是否收斂，需要在每一次迭代演算法後計算的值，根據值的變化來判斷收斂。
在執行隨機梯度下降時，不需要計算所有的樣本的代價函數，只用在對某個樣本進行梯度下降前計算該樣本的代價函數，為了判斷是否收斂，可以計算多次迭代後的平均值，例如1000次迭代，在每次更新前，計算最後1000次的的cost的平均值。

選擇每隔多少次計算成本函數對梯度下降的過程也有影響：

上圖中藍色曲線是每1000次迭代，紅色的是每隔5000次迭代。
因為隨機梯度下降時會出現震盪，當迭代次數少時發現下降的曲線起伏很多，而迭代次數變大時，曲線就會變得平滑許多。缺點是每隔5000個計算，會增加計算成本。

增加迭代次數可以判斷演算法是否正確：

上圖藍色的是1000個迭代次數，通過這條曲線，不能很好的判斷成本函數是否在下降，這時就需要添加迭代次數，當增加到5000次，則可以通過平滑的曲線判斷，當下滑曲線是紅色的時，說明演算法是有效的，代價函數值在下降；當是紫色的曲線時，可以看到是一個平坦的線，這時判斷演算法可能出現問題了。

在隨機梯度下降中，學習率也會影響演算法，當學習率減小時，下降曲線的震盪就會變小，而且會收斂到一個更好的解：

當看到曲線是上升的時候，可以嘗試減小學習率看看效果。

在隨機梯度下降中，如果想要收斂到全劇最小值，需要隨著時間的變化減小學習率的值：

學習率等於一個常數除以迭代次數加另一個常數，隨著迭代次數增大，學習率會減小；但這會造成常數1和常數2的選擇問題。

⑼ 梯度下降法是什麼

梯度下降是通過迭代搜索一個函數極小值的優化演算法。使用梯度下降，尋找一個函數的局部極小值的過程起始於一個隨機點，並向該函數在當前點梯度（或近似梯度）的反方向移動。梯度下降演算法是一種非常經典的求極小值的演算法。

比如邏輯回歸可以用梯度下降進行優化，因為這兩個演算法的損失函數都是嚴格意義上的凸函數，即存在全局唯一極小值，較小的學習率和足夠的迭代次數，一定可以達到最小值附近，滿足精度要求是完全沒有問題的。並且隨著特徵數目的增多，梯度下降的效率將遠高於去解析標准方程的逆矩陣。

常用的梯度下降法有3種不同的形式：

（1）批量梯度下降法，簡稱BGD，使用所有樣本，比較耗時。

（2）隨機梯度下降法，簡稱SGD，隨機選擇一個樣本，簡單高效。

（3）小批量梯度下降法，簡稱MBGD，使用少量的樣本，這是一個折中的辦法。

機梯度下降法優點：

1、更容易跳出局部最優解。

2、具有更快的運行速度。

⑽ 什麼是梯度下降演算法

梯度下降是迭代法的一種，梯度下降法是一個最優化演算法，通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一，常用於機器學習和人工智慧當中用來遞歸性地逼近最小偏差模型。
梯度下降法的計算過程就是沿梯度下降的方向求解極小值（也可以沿梯度上升方向求解極大值）。

導航:首頁 > 源碼編譯 > 梯度下降演算法怎麼寫

梯度下降演算法怎麼寫

與梯度下降演算法怎麼寫相關的資料