① 為什麼隨機梯度下降方法能夠收斂
梯度下降法是一個一階最優化演算法,通常也稱為最速下降法。要使用梯度下降法找到一個困孝函數的局部極小值,必須向函數上當前隱陪點對應梯度(或者是近似梯度)的反方向的規定步長距離點進行迭代搜索。
梯度下降最優解
梯度下降法實現簡單,當目標函數是凸函數時,梯度下降法的解是全局解。一般情況下,其解不保證是全局最優解,梯度下降法的速度也未必是最快的。
Mini-batch gradient它還是採用了batch的思路,也就是所有樣本一起更新。和batch不同的是mini,在求解方向的時候選擇了一部分樣本一起更新,這樣就減少了計算量,同時它又不像SGD那樣極端只使用一個樣本,所以保證了方汪攜稿向的精確性。② 什麼是梯度法為什麼在接近目標函數的極值點時,梯度法的收斂速度會變慢
梯度下降法是一個最優化演算法,通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一,雖然現在已經不具有實用性,但是許多有效演算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。
③ 堵丁柱的研究成果
1986-1987年是伯利克數學所的代數數論年,搞計算復雜性的學者們便各奔東西了。堵丁柱接受麻省理學的聘請,以訪問助理教授的身份開始了與克拉依曼教授的合作。事隔4年從不能接收作正式研究生到可以作助理教授,變化之大,令人感慨萬端。
麻省理工學院是一所舉世聞名的大學,它坐落在查理士河畔,與波士頓的高大建築群隔河相望。樓內走廊的牆上,掛滿了為科學技術作出重大貢獻的教授們的歷史圖片,這使人一進其中,就體驗到它的歷史悠久和碩果累累。在應用數學方面享有很高聲望的林加翹教授就在這里工作。幸運的是,堵丁柱的辦公室被安排在林教授的斜對面,使他有機會經常當面聆聽先生的教誨。在教書之餘,堵丁柱充分利用業余時間,同這里的教授和訪問學者們探討問題。在此期間,他完成了9篇論文,並在另外的項目上也取得了有意義的進展。
在麻省理工學院期間,堵丁柱和章祥蓀合作的羅素梯度投影收斂的論文刊印出來了。
羅素梯度投影方法是解決帶約束非線性規劃問題的基本方法。自1960年羅素提出這個方法以來,收斂問題一直沒有解決。此後,幾乎每個討論該方法的教科書都要提及這個問題,使這個問題成為非線性規劃領域中較有名的長期未解決的問題之一。早在1980年,在越民義教授和韓繼業教授的指導下,堵丁柱對羅素投影法曾作過較系統的學習和研究,在碩士畢業論文中,又解決了梯度投影的退化處理問題。在此此閉後的工作中,他又簡化了由泡拉克提出、章祥蓀教授改進的一種羅素梯度投影法的變形,並且以反例證實了在某種特殊情況下,原演算法是可以不收斂的。1986年刊出的與章祥蓀教授合作的論文是在1984年完成的,這篇論文的主要結論是,一般說來,羅素演算法提供的技巧是可以使演算法收斂的。因此,基本解決了這個問題。羅素本人在後來的一封信中肯定了他們的和塌工作。他寫道,我想祝賀你們,你們最森棚裂近的工作,最終解決了和我的原始論文相關聯的收斂性問題。
在堵丁柱的論文目錄分類中有可靠性理論題目。他對這方面的研究是從證明德曼·勒伯曼和羅斯猜測開始的。他們的猜測是關一種概率模型中幾個性質相同但工作概率不同的部件的最優分配。堵丁柱與黃光明合作,在1982年年初得出完全的證明,並且建立了一些較一般的定理用於解決最優分配的問題。在紐約期弟文斯工學院舉辦的可靠性會議上,他被邀請報告了該問題及有關成果。
在麻省理學院的研究工作中,堵丁柱給克拉依曼教授印象最深的是關於他本人的一個猜測的證明。這個猜測是關於曼哈頓格中具有給定直徑最大的集約性質。教授萬沒有想到,這位中國學者在證明中使用了與他提出猜測論文中相同的技巧,在不長的時間里卻獲得了出人意外的成功。
④ 為什麼隨機梯度下降方法能夠收斂
其實這個還是要好好的看看論文,然後讓導師再給你好好的講解一下吧,我這里只能說我自己的理解。
首先要知道什麼是隨機並行梯度下降演算法。其實等於沒有模型的優化的演算法,就是更加的適用於那種控制變數比較多的,但是系統比較復雜的,又沒有辦法准確的去建立數學模型的優化控制的過程。
其實我覺得我說這么多,不一定說明白啥,基本上我個人是覺得對於這種隨機梯度下降的方法是期望收斂而已,真的是沒有辦法確定是否收斂的。
畢竟我沒有論文專業,更沒有導師專業,我只是用我自己的知識能力去回答的問題,所以說我由衷的建議你去看論文,看不懂就去問導師了,那才是正道啊,像我們這種人,畢竟沒有那麼專業,我害怕讓你誤入歧途。
⑤ 關於Logistic Regression對於線性可分的數據集的不收斂性的分析
最近我在進行斯坦福cs229的題目練習時候,碰到了一個不容易理解的case:即當面對線性可分的數據集的時候,Logistic Regression演算法將永遠無法收斂。
剛碰到的時候,心想stanford的題目真不是蓋的,盡然百思不得其解。經過了各種google出來的帖子,文章,slides的閱讀,目前算是有了一點點了解,但是還沒真正理解透徹。所以目前先就理解的這部分按照邏輯敘述一下。
先從幾個基本概念的介紹開始。
官方得說,就是有一堆標簽數據,分別標為「1」,「0」兩種。在其分布的坐標空間中,洞模存在一個超平面可以正好將兩種標簽的數據分開,就叫做線性可分的數據集。一般情況下,只要這個數據是線性可分的,就存在無數個超平面可以將兩類數據分開。
我們用更嚴格的數學語言描述一下,有一份數據項的數目為m的數據集:
如果這個數據是線性可分(Linear separability),則存在一個超平面:
使得上面的數據集有如下不等式組成立:
其中 x向量中有一項為1 ,即 ,這個處理主段悄要是為了包含超平面的常數項,即
為了更好理解線性可分的概念,我們可以看一個直觀一點的二維數據圖:
Logistic Regression中文叫邏輯回歸,通俗得說就是二元線性回歸或者多元線性回歸後加上sigmoid函數,輸出為二值分類。主要計算公式是損失函數:
整個邏輯回歸就是通過梯度下降法或者牛頓法來求出一個最優的向量, ,使得上式中的J取最小值。所謂梯度下降法為:
假設我們做Logistic Regression所用的是梯度下降法。即剛開始 值都是隨機的,或者都是0。所以在運用迭代法之前, 所取的值組成的超平面,是無法將數據正好分成標記正確的兩部分,所以迭代可以一直進行下去, 直到迭代出一個線性可分的 。此時繼續迭代,我們的目標函數將不能繼續收斂了。
首先因為當前 已經滿足線性可分,所以損失函數 將簡化成如下式子:
我們再分析一下當 增加時, 函數的趨勢:
又因為之前的關於 與 的分析,可知上面兩個式子的各自的兩種情況是一一對應的,即從 可推出 ,所以可以知道 在隨著 增加,而單調減,最終減小為0,但是這個過程是當 取無限大的時候, 的極限才減小到0,所以 在這種情況下沒有最小值, 會永遠增加下去而無法收斂。
這篇收斂性的分析寫得還是比較匆忙,僅納燃緩僅是流水賬地做了一點推理,很難做到邏輯縝密。而且我的思路的正確性有有待驗證。
⑥ 最優化方法及其Matlab程序設計的目錄
第1章 最優化理論基礎
1.1 最優化問題的數學模型
1.2 向量和矩陣范數
1.3 函數的可微性與展開
1.4 凸集與凸函數
1.5 無約束問題的最優性條件
1.6 無約束優化問題的演算法框架
習題1
第2章 線搜索技術
2.1 精確線搜索及其Matlab實現
2.1.1 黃金分割法
2.1.2 拋物線法
2.2 非精確線搜索及其Matlab實現
2.2.1 Wolfe准則
2.2.2 Armijo准則
2.3 線搜索法的收斂性
習題2
第3章 最速下降法和牛頓法
3.1 最速下降方法及其Matlab實現
3.2 牛頓法及其Matlab實現
3.3 修正牛頓法及其Matlab實現
習題3
第4章 共軛梯度法
4.1 共軛方向法
4.2 共軛梯度法
4.3 共軛梯度法的Matlab程序
習題4
第5章 擬牛頓法
5.1 擬牛頓法及其性質
5.2 BFGS演算法及其Matlab實現
5.3 DFP演算法及其Matlab實現
5.4 Broyden族演算法及其Matlab實現
5.5 擬牛頓法的收斂性
習題5
第6章 信賴域方法
6.1 信賴域方法的基本結構
6.2 信賴域方法的收斂性
6.3 信賴域子問題的求解
6.4 信賴域方法的Matlab程序
習題6
第7章 非線性最小二乘問題
7.1 Gauss-Newton法
7.2 Levenberg-Marquardt方法
7.3 L-M演算法的Matlab程序
習題7
第8章 最優性條件
8.1 等式約束問題的最優性條件
8.2 不等式約束問題的最優性條件
8.3 一般約束問題的最優性條件
8.4 鞍點和對偶問題
習題8
第9章 罰函數法
9.1 外罰函數法
9.2 內點法
9.2.1 不等式約束問題的內點法
9.2.2 一般約束問題的內點法
9.3 乘子法
9.3.1 等式約束問題的乘子法
9.3.2 一般約束問題的乘子法
9.4 乘子法的Matlab實現
習題9
第10章 可行方向法
10.1 Zoutendijk可行方向法
10.1.1 線性約束下的可行方向法
10.1.2 非線性約束下的可行方向法
10.2 梯度投影法
10.2.1 梯度投影法的理論基礎
10.2.2 梯度投影法的計算步驟
10.3 簡約梯度法
10.3.1 Wolfe簡約梯度法
10.3.2 廣義簡約梯度法
習題10
第11章 二次規劃
11.1 等式約束凸二次規劃的解法
11.1.1 零空間方法
11.1.2 拉格朗日方法及其Matlab程序
11.2 一般凸二次規劃的有效集方法
11.2.1 有效集方法的理論推導
11.2.2 有效集方法的演算法步驟
11.2.3 有效集方法的Matlab程序
習題11
第12章 序列二次規劃法
12.1 牛頓一拉格朗日法
12.1.1 牛頓一拉格朗日法的基本理論
12.1.2 牛頓一拉格朗日法的Matlab程序
12.2 SQP方法的演算法模型
12.2.1 基於拉格朗日函數Hesse矩陣的SQF·方法
12.2.2 基於修正Hesse矩陣的SQP方法
12.3 SQP方法的相關問題
12.3.1 二次規劃子問題的Hesse矩陣
12.3.2 價值函數與搜索方向的下降性
12.4 SQP方法的Matlab程序
12.4.1 SQP子問題的Matlab實現
12.4.2 SQP方法的Matlab實現
習題12
參考文獻
附錄 Matlab優化工具箱簡介
A.1 線性規劃
A.2 二次規劃
A.3 無約束非線性優化
A.4 非線性最小二乘問題
A.5 約束條件的非線性優化命令
A.6 最小最大值的優化問題
⑦ 投影梯度下降(Projected gradient descent)
對於上面有條件的殲知悶優化問題,可以採用這樣的的一種思路:
採用梯度下降的思路,更新 ,再將這樣的更新值 向定義域C 作投影,以此來獲得該優化問題在一定條件下的優化。猛盯
投影梯度下降的收斂性:
對於u-strongly convex 和 L-smooth 的函數f(x)
如果步長 取為 ,那麼我們有這樣的式子:氏彎
對於投影梯度遞降法來說:
1)如果處理的是一個convex&smooth 問題,那們一般設置步長是
收斂速率是 ,循環的復雜度是
2)對於strongly-convex&smooth 問題,其步長依舊是 ,收斂速率是 ,循環復雜度是