1. 作為一名合格的程序員,請問需要掌握哪些數學知識,學到什麼樣的水平
程序員的知識是多方面的, 數學方面至少高等數學大專以上文化程度,概率統計,數字邏輯運算方面的知識,主要就是做哪一方面的程序設計,有些學過的可能長期也不用,搞科學研究的、游戲、智能軟體開發、安全方面的要求就高一些,沒有一定數學基礎有些演算法書就讀不懂,搞社會一般應用的要求相對較低一些,這些只是常識,程序員關鍵一點把一門課及相關知識精通,可以把用戶提出的問題很快的自己能夠理解,轉換成計算機處理方式,成為軟體或網站,而且和用戶的需求基本一致。當然有些人的數學水平並不高,設計出的軟體人人愛用,水平很高,程序員的知識包括數學方面的知識也在不斷充實更新中。
2. 程序員需要怎樣的數學基礎
離散數學對程序員來說非常重要,還有組合數學、線性代數、概率論、數論等等,即使你將來不做研究,這些基礎知識也能極大地提高你的水平。計算機科學對離散數學的要求很高,建議你先學習前面提到的這些課程,然後學習計算機演算法和數據結構,再配合到網上的在線題庫做題,過程很艱辛,但是對你的幫助會很大。
推薦書目:
《具體數學》(先學完前面的數學課程,在水平有一定進步以後再看)
《演算法導論》(應該人手一本的好書)
簡單來說,學數學的目的,一方面是活躍你的思維;另一方面是為了深入學習演算法打基礎,設想一下,同樣的問題,普通人的程序要幾十分鍾甚至幾小時幾天才能解決出來,甚至根本無法解決,而你精心設計的程序卻能在1秒內解決出來,這就是數學的魅力、演算法的魅力。
其實,一切取決於你是否想做一個高級程序員。如果你做體力活(其實一般編程別人都認為是體力活),那你可以不學,因為你用不到,但是,你要是做技術上的創新,做個很強的程序員,沒有數學的支持,很難。
你既然學習了C,c++,你也知道演算法的重要性,同樣一個問題,我用13行程序解決了,我的同學居然用了33行,因為他不懂的用數學。你要達到什麼高等,取決於你的數學修養。當然,要做一個普通的程序員就不用學習了。要挑戰自己,做個好的,優秀的,學習數學吧!
3. 程序員需要學些什麼
程序員的崗位需求很多,例如大型網路公司、軟體開發公司等等都需要程序員。
程序員需要學習:
1、掌握數據及其轉換、數據的機內表示、算術和邏輯運算,以及相關的應用數學基礎知識;
2、理解計算機的組成以及各主要部件的性能指標;
3、掌握操作系統、程序設計語言的基礎知識;
4、熟練掌握計算機常用辦公軟體的基本操作方法;
5、熟練掌握基本數據結構和常用演算法;
6、熟練掌握C程序設計語言,以及C++、Java、Visual Basic中的一種程序設計語言;
7、熟悉資料庫、網路和多媒體的基礎知識;
8、掌握軟體工程的基礎知識,了解軟體過程基本知識、軟體開發項目管理的常識;
9、了解常用信息技術標准、安全性,以及有關法律、法規的基本知識;
10、了解信息化、計算機應用的基礎知識;
11、正確閱讀和理解計算機領域的簡單英文資料。
程序員必備技能:
1、熟練開發工具
做為一名程序員至少熟練掌握兩到三種開發工具的使用,這是程序員的立身之本,其中C/C++和JAVA是重點推薦的開發工具,C/C++以其高效率和高度的靈活性成為開發工具中的利器,很多系統級的軟體還是用C/C++編寫。
而JAVA的跨平台和與WEB很好的結合是JAVA的優勢所在,而JAVA即其相關的技術集JAVAOne很可能會成為未來的主流開發工具之一。
其次,能掌握一種簡便的可視化開發工具,如VB,PowerBuilder,Delphi,CBuilder,則更好,這些開發工具減小了開發難度,並能夠強化程序員對象模型的概念。
另外,需要掌握基本的腳本語言,如shell,perl等,至少能讀懂這些腳本代碼。
2、熟知資料庫
作為程序員,他們自然有自己的理由:很多應用程序都是以資料庫的數據為中心,而資料庫的產品也有不少,其中關系型資料庫仍是主流形式,所以程序員至少熟練掌握一兩種資料庫,對關系型資料庫的關鍵元素要非常清楚,要熟練掌握SQL的基本語法。
雖然很多資料庫產品提供了可視化的資料庫管理工具,但SQL是基礎,是通用的資料庫操作方法。如果沒有機會接觸商業資料庫系統,可以使用免費的資料庫產品是一個不錯的選擇,如mySQL,Postgres等。
3、了解操作系統
當前主流的操作系統是Windows,Linux/Unix,熟練地使用這些操作系統是必須的,但只有這些還遠遠不夠。
要想成為一個真正的編程高手,需要深入了解操作系統,了解它的內存管理機制、進程/線程調度、信號、內核對象、系統調用、協議棧實現等。
Linux作為開發源碼的操作系統,是一個很好的學習平台,Linux幾乎具備了所有現代操作系統的特徵。雖然Windows系統的內核實現機制的資料較少,但通過互聯網還是能獲取不少資料。懂得網路協議TCP/IP。
在互聯網如此普及的今天,如果您還沒有對互聯網的支撐協議TCP/IP協議棧有很好的掌握,就需要迅速補上這一課,網路技術已改變了軟體運行的模式。
從最早的客戶/伺服器結構,到今天的WEBServices,再到未來的網格計算,這一切都離不開以TCP/IP協議棧為基礎的網路協議支持,深入掌握TCP/IP協議是非常必要的。
至少,需要了解ISO七層協議模型,IP/UDP/TCP/HTTP等常用協議的原理和三次握手機制。
4、明白DCOM/CORBA/XML/WEBServices存在的意義
隨著技術的發展,軟體與網路的無縫結合是必然趨勢,軟體系統的位置無關性是未來計算模式的重要特徵之一,DCOM/CORBA是當前兩大主流的分布計算的中間平台,DCOM是微軟COM(組件對象模型)的擴展,而CORBA是OMG支持的規范。
XML/WebServices重要性不言而喻,XML以其結構化的表示方法和超強的表達能力被喻為互聯網上的「世界語」,是分布式計算的基石之一。
5、不要將軟體工程與CMM分開
大型軟體系統的開發中,工程化的開發控製取代個人英雄主義,成為軟體系統成功的保證,一個編程高手並不一定是一個優秀的程序員。
一個優秀的程序員是將出色的編程能力和開發技巧同嚴格的軟體工程思想有機結合,編程只是軟體生命周期中的其中一環,優秀的程序員應該掌握軟體開發各個階段的基本技能。
如市場分析,可行性分析,需求分析,結構設計,詳細設計,軟體測試等。
6、需求理解能力
程序員要能正確理解任務單中描述的需求。在這里要明確一點,程序員不僅僅要注意到軟體的功能需求,還應注意軟體的性能需求。
要能正確評估自己的模塊對整個項目中的影響及潛在的威脅,如果有著兩到三年項目經驗的熟練程序員對這一點沒有體會的話,只能說明他或許是認真工作過,但是沒有用心工作。
7、模塊化思維能力
作為一個優秀的程序員,他的思想不能局限在當前的工作任務裡面,要想想看自己寫的模塊是否可以脫離當前系統存在,通過簡單的封裝在其他系統中或其他模塊中直接使用。
這樣做可以使代碼能重復利用,減少重復的勞動,也能使系統結構越趨合理。模塊化思維能力的提高是一個程序員的技術水平提高的一項重要指標。
就業方向:
1、網路開發
現在網路已經成為世界通訊的一座橋梁,好像Javascript、PHP、Ruby這幾類開發語言大部分是用作網路開發方面。
2、企業軟體開發
JAVA、C#、VB這幾類開發語言都實現了面向對象開發的目標,更多時候用於企業系統的開發。
3、系統軟體
C語言、C++、Object-C這些軟體更多是用在系統軟體開發,嵌入式開發的方面。
當然,這分類不是絕對,像JAVA、C#、VB很多時候也用於動態網站的開發。在很開發項目都會使用集成開發的方式,同一個項目裡面使用多種開發語言,各展所長,同步開發。
但所以在剛入門的時候,建議先為自己選擇一種合適的開發工具,「專注地投入學習,全力一擊」。
會編程、會計算機語言就能加入互聯網發展大潮中,享受數字經濟發展的紅利,一時間社會上的程序員培訓機構都變得格外火爆。
但是現在,專家的數據分析結果告訴你:若想跟上數字經濟發展的步伐,光會編程可不行,這個行業現在緊缺高端的、綜合型人才。
11月22日下午,清華大學經管學院互聯網發展與治理研究中心與領英聯合發布《中國經濟的數字化轉型:人才與就業》,揭示我國數字人才現狀與趨勢。
報告顯示我國數字經濟發展面臨人才短缺的挑戰,但這種短缺主要體現在擁有中高級專業技能數字人才的比例不高,擁有人工智慧、智能製造等前沿技術的人才更是少之又少。
與美國、英國、加拿大等國家相比,中國的數字人才儲備尚有很大差距。
此外,報告根據對人才需求的數據分析,結果顯示我國數字人才的技能需求不再強調單一編程技能,更加看重技術、管理和領導力等綜合技能。
2015年,我國從事信息傳輸、軟體和信息技術服務相關工作的人數約350萬,但其中中高端人才,特別是前沿技術的數字人才並不多。根據領英中國智庫的研究,在人工智慧領域,美國的從業者數量在85萬人以上,印度15萬,英國14萬,中國只有5萬多人。
報告負責人、清華大學經濟管理學院副院長陳煜波教授表示,我國目前在大數據與人工智慧領域人才缺口明顯。
他解釋說,目前中國85%以上的數字人才分布在產品研發類,而深度分析、先進製造、數字營銷等職能的人才加起來只有不到5%,存在較大缺口,新興技術人才和創新型人才培養方面存在滯後和不足。
這份研究報告的基礎數據來自領英在中國的3600萬個人用戶,這些用戶畢業於1.5萬多所國內外院校,分布在36.4萬家企業,擁有超過2.3萬項技能。
陳煜波研究團隊從中篩選了72萬數字人才,多維度提取用戶畫像並跟蹤其職業軌跡,以此預測不同地區的人才流向、僱傭率、受僱主歡迎的技能等人才趨勢層面的信息。
陳煜波說,根據數據分析結果,整體來看,雖然編程技能和數據分析技能需求占據主導,然而隨著數字產業走向成熟,企業除了強調編程技能,也逐步更加看重人才的技術、管理和領導力等綜合技能。
近年間,項目管理、產品運營等「技術+管理」類技能的需求呈現出明顯的上升趨勢,懂技術、懂管理的人才被認為是「一將難求」。
領英中國代理總裁曾志恆也提醒,如果你有興趣向數字職能轉型,不能僅僅專注於自己的技術能力,溝通和領導力等軟性技能將成為你脫穎而出的關鍵。
陳煜波希望這些研究結果能為教育行業和政府部門提供借鑒。他說,教育行業可根據職位的供需趨勢更好地規劃人才培養的方向,政府也可更好地了解人才流動方向、技術缺口等,以此制定有針對性的引才策略。
程序員崗位職責:
1、對項目經理負責,負責軟體項目的詳細設計、編碼和內部測試的組織實施,對小型軟體項目兼任系統分析工作,完成分配項目的實施和技術支持工作。
2、協助項目經理和相關人員同客戶進行溝通,保持良好的客戶關系。
3、參與需求調研、項目可行性分析、技術可行性分析和需求分析。
4、熟悉並熟練掌握交付軟體部開發的軟體項目的相關軟體技術。
5、負責向項目經理及時反饋軟體開發中的情況,並根據實際情況提出改進建議。
6、參與軟體開發和維護過程中重大技術問題的解決,參與軟體首次安裝調試、數據割接、用戶培訓和項目推廣。
7、負責相關技術文檔的擬訂。
8、負責對業務領域內的技術發展動態進行分析研究。
相關書籍:
很多程序員響應,他們在推薦時也寫下自己的評語。 以前就有國內網友介紹這個程序員書單,不過都是推薦數 Top 9的書。
其實除了前9本之外,推薦數前30左右的書籍都算經典,筆者整理編譯這個問答貼,同時摘譯部分推薦人的評語。
下面就按照各本書的推薦數排列。
1、《代碼大全》 史蒂夫·邁克康奈爾
2、《程序員修煉之道》
3、《計算機程序的構造和解釋》
4、《演算法導論》
5、《重構:改善既有代碼的設計》
6、《設計模式》
7、《人月神話》
8、《計算機程序設計藝術》
9、《編譯原理》(龍書)
10、《活著》
4. 學習這些計算機基礎科目要學習什麼數學
一、數學
數學是計算機專業的基礎,學好數學是學好計算機專業的關鍵。高等數學課程主要學習微積分、空間解析幾何和微分方程,一般高校通用的教材是同濟大學編的《高等數學》,目前已經有了第五版,也可以使用自考教材——西安交通大學陸慶樂編的《高等數學》,可以買一些配套的輔導書和習題解答。
還有兩門重要的數學課程是《線性代數》和《概率統計》。可以分別採用高等教育出版社出版、同濟大學編寫的《線性代數》和浙江大學編寫的《概率統計》。注意:自學一定要多做習題,而且最好一門課有一本習題解答和輔導書。
除了上面數學基礎課外,在計算機專業中舉足輕重的就是《離散數學》,這門課要多花點力氣來學。可以採用左孝凌教授等編的《離散數學》,上海科學技術文獻出版社。也可以用北大、清華的教材,還可以參考左教授編的自學教材,經濟科學出版社。
其他課程還有《復編函數》、《計算方法》等,有餘力的朋友可以選學。
二、專業基礎課
1.《程序設計》:學習內容一般為C和C++。C語言可以採用譚浩強教授的《C程序設計》,內容比較淺顯,C++方面的書推薦錢能編寫的《C++程序設計》,清華大學出版社。
2.《數據結構》:這門課程比較難,可以採用嚴蔚敏教授編寫的《數據結構(C語言版)》,有配套習題冊。好好做題,有時間多編幾個大的程序。
3.《模擬電路》和《數字電路》:這是難度較高的兩門課程,選用自考教材相對來說容易些,也可以參考清華大學出版社出版的相關教材。
三、專業課
1.《計算機組成原理》:推薦白中英主編的《計算機組成原理》(第三版),科學出版社;黃愛英主編的《計算機組成原理》(第三版),清華大學出版社。
2.《操作系統》:湯子贏編寫的《計算機操作系統》(第三版),西安電子科技大學出版社。還可以參考高教司司長張堯學教授編寫的教材,清華大學出版社。
3.《匯編語言》:可以用清華大學出版社出版的教材,也可以用自考教材。
4.《資料庫原理》:人民大學教授王珊編的《資料庫系統概論》(第三版),高等教育出版社,復旦大學施伯樂老師編寫的教材也不錯。
5.《編譯原理》:國防科技大學陳火旺院士編寫的教材十分不錯,最新版本是2000年出的,國防工業出版社。
四、選修課
包括計算機網路與通訊、軟體工程、圖形學、人工智
能、系統結構、圖形學等。此類課程的教材可選用全國高等教育自學考試指定教材,或參考各高校所採用的計算機專科和本科教材及配套輔導書。英文基礎好的朋友可以用國外著名大學的影印版教材。
我也是學計算機專業的,其最核心的課程是數據結構,這門課程想學好不是很容易,要花大量時間去實踐;還有一些重要課程比如:操作系統,C語言,計算機組成原理,匯編語言,資料庫,計算機網路,人工智慧這些都是專業基礎課,還有一些建模課~~~
高中起點計算機本科:
1. 計算機科學與技術專業:C語言程序設計、計算機組成原理、數據結構、操作系統、
微機原理及匯編語言、計算機網路、計算機系統結構、軟體工程、面向對象程序設計等。
2. 計算機軟體專業:面向對象程序設計、計算機組成原理、操作系統、數據結構、計算
機網路、軟體工程、編譯原理、分布式系統、軟體項目管理、Oracle資料庫系統等。
3. 電子商務專業:管理學原理、電子商務、物流管理、計算機網路、供應鏈管理、電子商務平台及核心技術、國際商務管理、電子商務案例分析、商務網站建設等。
專科起點計算機本科:
1. 計算機科學與技術專業:計算機組成原理、數據結構、面向對象程序設計、操作系統、計算機系統結構、軟體工程、資料庫原理及應用、計算機網路、嵌入式系統與結構等。
2. 計算機軟體專業:操作系統、數據結構、面向對象程序設計、計算機原理及系統結構、資料庫系統、JAVA程序設計、計算機網路、軟體工程、中間件技術、信息系統集成等。
3. 電子商務專業:管理學原理、資料庫原理及應用、管理信息系統、金融學、電子商務平台及核心技術、物流管理、計算機網路、人力資源管理、供應鏈管理等。
開設的主要課程有:高等數學、線性代數、概率與數理統計、普通物理、 離散數學、計算機科學導論、C語言及程序設計、匯編語言、、數字電路與邏輯設計、計算機組成原理、演算法與數據結構、操作系統原理、軟體工程、計算機網路與通信、計算機專業英語、編譯原理、資料庫系統原理、面向對象編程技術(如:VB)、CAD技術、圖形圖象處理技術、軟體開發新環境、介面與通訊、人工智慧及應用、信息系統工程、企業會計、電子數據交換(EDI)、計算機維修技術、計算機網路工程、計算機系統維護技術、多媒體技術及其應用、演算法分析與設計、面向對象技術、、計算機圖形學、決策支持系統、網路應用軟體設計、網路操作系統、大型資料庫系統、單片機應用、計算方法、軟體高級工資格認證、高級程
序員水平認證、馬克思主義哲學原理、毛澤東思想概論、馬列政治經濟學原理、鄧小平理論、思想道德修養、法律基礎、大學語文、大學英語、體育等。
《計算機操作系統》課程簡介
本課程是計算機專業的專業課程之一, 著重介紹計算機系統的一個重要系統軟體——操作系統。本課程詳細闡述了操作系統如何管理計算機系統中的軟體和硬體資源、合理組織計算機系統的工作流程、提供用戶與計算機系統之間的軟體介面等機制。
授課內容包括操作系統的基本內容和概念、進程的概念以及通信和調度的方法、操作系統中各種資源的管理。最後通過實例——Linux操作系統,介紹Linux系統中的存儲、設備、文件和進程的管理。
本課程的前導課程為:C語言程序設計。授課對象為:網路與通信專業本科生。
《應用資料庫技術》課程簡介
本課程為本科計算機與通信專業的專業課程。本課程詳細闡述和研究了資料庫系統尤其是關系資料庫系統的基本概念和基本原理、介紹了資料庫國際標准語言——SQL語言以及資料庫設計的基本技術和方法,旨在指導資料庫應用系統的開發和資料庫技術的廣泛應用。
授課內容包括:資料庫的基本原理和數據的物理組織與存取方法;關系資料庫系統的基本概念、關系代數理論、查詢語言、規范化理論、查詢優化;資料庫保護技術;資料庫設計的基本技術和方法以及幾種現今流行的資料庫應用。
本課程的前導課程為:C語言程序設計、數據結構。授課對象為:網路與通信專業本科生。
《數據結構》課程簡介
數據結構是計算機專業課程的主要基礎課程之一。它旨在使學生了解和掌握數據對象的特性,學會數據組織的方法和把現實世界中的問題在計算機內部的表示方法,以及培養基本的、良好的程序設計技能。本課程詳細闡述和研究了各種數據元素之間存在的關系(數據的邏輯結構)、在計算機中如何表示這種關系的存儲結構以及存儲結構的描述方法、數據的不同的邏輯結構在各種存儲結構上實現的基本運算:查找、插入和刪除的演算法,從時間和空間復雜度的角度綜合比較各種存儲結構的不同特點和適用場合。
本課程的基本授課內容包括線性表、棧和隊列、串、數組和廣義表、二叉樹和樹、圖、動態存儲管理、查找、排序和文件等以及實現這些數據組織的演算法等。
5. 高等數學、線性代數、離散數學、概率論是程序員的必修課嗎有嘛關系如果有用學習的先後次序如何
高等數學,線性代數,概率論是大學必修課,就和英語一樣。離散數學是計算機專業的必修課,作為編程,很多時候需要離散數學的相關知識,尤其是數據結構,資料庫。離散數學需要線性代數的一點內容。而概率論必須要先學習高等數學,因為概率運算需要微積分運算。
建議學習次序為:高等數學第一、(線性代數【先】、離散數學【後】)概率論
6. 程序員必備的一些數學基礎知識
作為一個標準的程序員,應該有一些基本的數學素養,尤其現在很多人在學習人工智慧相關知識,想抓住一波人工智慧的機會。很多程序員可能連這樣一些基礎的數學問題都回答不上來。
作為一個傲嬌的程序員,應該要掌握這些數學基礎知識,才更有可能碼出一個偉大的產品。
向量 向量(vector)是由一組實數組成的有序數組,同時具有大小和方向。一個n維向量a是由n個有序實數組成,表示為 a = [a1, a2, · · · , an]
矩陣
線性映射 矩陣通常表示一個n維線性空間v到m維線性空間w的一個映射f: v -> w
註:為了書寫方便, X.T ,表示向量X的轉置。 這里: X(x1,x2,...,xn).T,y(y1,y2,...ym).T ,都是列向量。分別表示v,w兩個線性空間中的兩個向量。A(m,n)是一個 m*n 的矩陣,描述了從v到w的一個線性映射。
轉置 將矩陣行列互換。
加法 如果A和B 都為m × n的矩陣,則A和B 的加也是m × n的矩陣,其每個元素是A和B相應元素相加。 [A + B]ij = aij + bij .
乘法 如A是k × m矩陣和B 是m × n矩陣,則乘積AB 是一個k × n的矩陣。
對角矩陣 對角矩陣是一個主對角線之外的元素皆為0的矩陣。對角線上的元素可以為0或其他值。一個n × n的對角矩陣A滿足: [A]ij = 0 if i ̸= j ∀i, j ∈ {1, · · · , n}
特徵值與特徵矢量 如果一個標量λ和一個非零向量v滿足 Av = λv, 則λ和v分別稱為矩陣A的特徵值和特徵向量。
矩陣分解 一個矩陣通常可以用一些比較「簡單」的矩陣來表示,稱為矩陣分解。
奇異值分解 一個m×n的矩陣A的奇異值分解
其中U 和V 分別為m × m和n×n 的正交矩陣,Σ為m × n的對角矩陣,其對角 線上的元素稱為奇異值(singular value)。
特徵分解 一個n × n的方塊矩陣A的特徵分解(Eigendecomposition)定義為
其中Q為n × n的方塊矩陣,其每一列都為A的特徵向量,^為對角陣,其每一 個對角元素為A的特徵值。 如果A為對稱矩陣,則A可以被分解為
其中Q為正交陣。
導數 對於定義域和值域都是實數域的函數 f : R → R ,若f(x)在點x0 的某個鄰域∆x內,極限
存在,則稱函數f(x)在點x0 處可導, f'(x0) 稱為其導數,或導函數。 若函數f(x)在其定義域包含的某區間內每一個點都可導,那麼也可以說函數f(x)在這個區間內可導。連續函數不一定可導,可導函數一定連續。例如函數|x|為連續函數,但在點x = 0處不可導。
加法法則
y = f(x),z = g(x) 則
乘法法則
鏈式法則 求復合函數導數的一個法則,是在微積分中計算導數的一種常用方法。若 x ∈ R,y = g(x) ∈ R,z = f(y) ∈ R ,則
Logistic函數是一種常用的S形函數,是比利時數學家 Pierre François Verhulst在 1844-1845 年研究種群數量的增長模型時提出命名的,最初作為一種生 態學模型。 Logistic函數定義為:
當參數為 (k = 1, x0 = 0, L = 1) 時,logistic函數稱為標准logistic函數,記 為 σ(x) 。
標准logistic函數在機器學習中使用得非常廣泛,經常用來將一個實數空間的數映射到(0, 1)區間。標准 logistic 函數的導數為:
softmax函數是將多個標量映射為一個概率分布。對於 K 個標量 x1, · · · , xK , softmax 函數定義為
這樣,我們可以將 K 個變數 x1, · · · , xK 轉換為一個分布: z1, · · · , zK ,滿足
當softmax 函數的輸入為K 維向量x時,
其中,1K = [1, · · · , 1]K×1 是K 維的全1向量。其導數為
離散優化和連續優化 :根據輸入變數x的值域是否為實數域,數學優化問題可以分為離散優化問題和連續優化問題。
無約束優化和約束優化 :在連續優化問題中,根據是否有變數的約束條件,可以將優化問題分為無約束優化問題和約束優化問題。 ### 優化演算法
全局最優和局部最優
海賽矩陣
《運籌學裡面有講》,前面一篇文章計算梯度步長的時候也用到了: 梯度下降演算法
梯度的本意是一個向量(矢量),表示某一函數在該點處的方向導數沿著該方向取得最大值,即函數在該點處沿著該方向(此梯度的方向)變化最快,變化率最大(為該梯度的模)。
梯度下降法
梯度下降法(Gradient Descent Method),也叫最速下降法(Steepest Descend Method),經常用來求解無約束優化的極小值問題。
梯度下降法的過程如圖所示。曲線是等高線(水平集),即函數f為不同常數的集合構成的曲線。紅色的箭頭指向該點梯度的反方向(梯度方向與通過該點的等高線垂直)。沿著梯度下降方向,將最終到達函數f 值的局部最優解。
梯度上升法
如果我們要求解一個最大值問題,就需要向梯度正方向迭代進行搜索,逐漸接近函數的局部極大值點,這個過程則被稱為梯度上升法。
概率論主要研究大量隨機現象中的數量規律,其應用十分廣泛,幾乎遍及各個領域。
離散隨機變數
如果隨機變數X 所可能取的值為有限可列舉的,有n個有限取值 {x1, · · · , xn}, 則稱X 為離散隨機變數。要了解X 的統計規律,就必須知道它取每種可能值xi 的概率,即
稱為離散型隨機變數X 的概率分布或分布,並且滿足
常見的離散隨機概率分布有:
伯努利分布
二項分布
連續隨機變數
與離散隨機變數不同,一些隨機變數X 的取值是不可列舉的,由全部實數 或者由一部分區間組成,比如
則稱X 為連續隨機變數。
概率密度函數
連續隨機變數X 的概率分布一般用概率密度函數 p(x) 來描述。 p(x) 為可積函數,並滿足:
均勻分布 若a, b為有限數,[a, b]上的均勻分布的概率密度函數定義為
正態分布 又名高斯分布,是自然界最常見的一種分布,並且具有很多良好的性質,在很多領域都有非常重要的影響力,其概率密度函數為
其中, σ > 0,µ 和 σ 均為常數。若隨機變數X 服從一個參數為 µ 和 σ 的概率分布,簡記為
累積分布函數
對於一個隨機變數X,其累積分布函數是隨機變數X 的取值小於等於x的概率。
以連續隨機變數X 為例,累積分布函數定義為:
其中p(x)為概率密度函數,標准正態分布的累計分布函數:
隨機向量
隨機向量是指一組隨機變數構成的向量。如果 X1, X2, · · · , Xn 為n個隨機變數, 那麼稱 [X1, X2, · · · , Xn] 為一個 n 維隨機向量。一維隨機向量稱為隨機變數。隨機向量也分為離散隨機向量和連續隨機向量。 條件概率分布 對於離散隨機向量 (X, Y) ,已知X = x的條件下,隨機變數 Y = y 的條件概率為:
對於二維連續隨機向量(X, Y ),已知X = x的條件下,隨機變數Y = y 的條件概率密度函數為
期望 對於離散變數X,其概率分布為 p(x1), · · · , p(xn) ,X 的期望(expectation)或均值定義為
對於連續隨機變數X,概率密度函數為p(x),其期望定義為
方差 隨機變數X 的方差(variance)用來定義它的概率分布的離散程度,定義為
標准差 隨機變數 X 的方差也稱為它的二階矩。X 的根方差或標准差。
協方差 兩個連續隨機變數X 和Y 的協方差(covariance)用來衡量兩個隨機變數的分布之間的總體變化性,定義為
協方差經常也用來衡量兩個隨機變數之間的線性相關性。如果兩個隨機變數的協方差為0,那麼稱這兩個隨機變數是線性不相關。兩個隨機變數之間沒有線性相關性,並非表示它們之間獨立的,可能存在某種非線性的函數關系。反之,如果X 與Y 是統計獨立的,那麼它們之間的協方差一定為0。
隨機過程(stochastic process)是一組隨機變數Xt 的集合,其中t屬於一個索引(index)集合T 。索引集合T 可以定義在時間域或者空間域,但一般為時間域,以實數或正數表示。當t為實數時,隨機過程為連續隨機過程;當t為整數時,為離散隨機過程。日常生活中的很多例子包括股票的波動、語音信號、身高的變化等都可以看作是隨機過程。常見的和時間相關的隨機過程模型包括貝努力過程、隨機遊走、馬爾可夫過程等。
馬爾可夫過程 指一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件概率分布僅依賴於當前狀態。
其中X0:t 表示變數集合X0, X1, · · · , Xt,x0:t 為在狀態空間中的狀態序列。
馬爾可夫鏈 離散時間的馬爾可夫過程也稱為馬爾可夫鏈(Markov chain)。如果一個馬爾可夫鏈的條件概率
馬爾可夫的使用可以看前面一篇寫的有意思的文章: 女朋友的心思你能猜得到嗎?——馬爾可夫鏈告訴你 隨機過程還有高斯過程,比較復雜,這里就不詳細說明了。
資訊理論(information theory)是數學、物理、統計、計算機科學等多個學科的交叉領域。資訊理論是由 Claude Shannon最早提出的,主要研究信息的量化、存儲和通信等方法。在機器學習相關領域,資訊理論也有著大量的應用。比如特徵抽取、統計推斷、自然語言處理等。
在資訊理論中,熵用來衡量一個隨機事件的不確定性。假設對一個隨機變數X(取值集合為C概率分布為 p(x), x ∈ C )進行編碼,自信息I(x)是變數X = x時的信息量或編碼長度,定義為 I(x) = − log(p(x)), 那麼隨機變數X 的平均編碼長度,即熵定義為
其中當p(x) = 0時,我們定義0log0 = 0 熵是一個隨機變數的平均編碼長度,即自信息的數學期望。熵越高,則隨機變數的信息越多;熵越低,則信息越少。如果變數X 當且僅當在x時 p(x) = 1 ,則熵為0。也就是說,對於一個確定的信息,其熵為0,信息量也為0。如果其概率分布為一個均勻分布,則熵最大。假設一個隨機變數X 有三種可能值x1, x2, x3,不同概率分布對應的熵如下:
聯合熵和條件熵 對於兩個離散隨機變數X 和Y ,假設X 取值集合為X;Y 取值集合為Y,其聯合概率分布滿足為 p(x, y) ,則X 和Y 的聯合熵(Joint Entropy)為
X 和Y 的條件熵為
互信息 互信息(mutual information)是衡量已知一個變數時,另一個變數不確定性的減少程度。兩個離散隨機變數X 和Y 的互信息定義為
交叉熵和散度 交叉熵 對應分布為p(x)的隨機變數,熵H(p)表示其最優編碼長度。交叉熵是按照概率分布q 的最優編碼對真實分布為p的信息進行編碼的長度,定義為
在給定p的情況下,如果q 和p越接近,交叉熵越小;如果q 和p越遠,交叉熵就越大。