導航:首頁 > 配伺服器 > 雲伺服器訓練神經網路多少錢

雲伺服器訓練神經網路多少錢

發布時間:2023-03-22 14:15:05

① 大數據、雲計算、人工智慧之間有什麼樣的關系

雲計算最初的目標是對資源的管理,管理的主要是計算資源,網路資源,存儲資源三個方面。想像你有一大堆的伺服器,交換機,存儲設備,放在你的機房裡面,你最想做的事情就是把這些東西統一的管理起來,最好能達到當別人向你請求分配資源的時候(例如1核1G內存,10G硬碟,1M帶寬的機器),能夠達到想什麼時候要就能什麼時候要,想要多少就有多少的狀態。

這就是所謂的彈性,俗話說就是靈活性。靈活性分兩個方面,想什麼時候要就什麼時候要,這叫做時間靈活性,想要多少就要多少,這叫做空間靈活性。

這個神經元有輸入,有輸出,輸入和輸出之間通過一個公式來表示,輸入根據重要程度不同(權重),影響著輸出。

於是將n個神經元通過像一張神經網路一樣連接在一起,n這個數字可以很大很大,所有的神經元可以分成很多列,每一列很多個排列起來,每個神經元的對於輸入的權重可以都不相同,從而每個神經元的公式也不相同。當人們從這張網路中輸入一個東西的時候,希望輸出一個對人類來講正確的結果。例如上面的例子,輸入一個寫著2的圖片,輸出的列表裡面第二個數字最大,其實從機器來講,它既不知道輸入的這個圖片寫的是2,也不知道輸出的這一系列數字的意義,沒關系,人知道意義就可以了。正如對於神經元來說,他們既不知道視網膜看到的是美女,也不知道瞳孔放大是為了看的清楚,反正看到美女,瞳孔放大了,就可以了。

對於任何一張神經網路,誰也不敢保證輸入是2,輸出一定是第二個數字最大,要保證這個結果,需要訓練和學習。畢竟看到美女而瞳孔放大也是人類很多年進化的結果。學習的過程就是,輸入大量的圖片,如果結果不是想要的結果,則進行調整。如何調整呢,就是每個神經元的每個權重都向目標進行微調,由於神經元和權重實在是太多了,所以整張網路產生的結果很難表現出非此即彼的結果,而是向著結果微微的進步,最終能夠達到目標結果。當然這些調整的策略還是非常有技巧的,需要演算法的高手來仔細的調整。正如人類見到美女,瞳孔一開始沒有放大到能看清楚,於是美女跟別人跑了,下次學習的結果是瞳孔放大一點點,而不是放大鼻孔。

聽起來也沒有那麼有道理,但是的確能做到,就是這么任性。

神經網路的普遍性定理是這樣說的,假設某個人給你某種復雜奇特的函數,f(x):

不管這個函數是什麼樣的,總會確保有個神經網路能夠對任何可能的輸入x,其值f(x)(或者某個能夠准確的近似)是神經網路的輸出。

如果在函數代表著規律,也意味著這個規律無論多麼奇妙,多麼不能理解,都是能通過大量的神經元,通過大量權重的調整,表示出來的。

這讓我想到了經濟學,於是比較容易理解了。

我們把每個神經元當成社會中從事經濟活動的個體。於是神經網路相當於整個經濟社會,每個神經元對於社會的輸入,都有權重的調整,做出相應的輸出,比如工資漲了,菜價也漲了,股票跌了,我應該怎麼辦,怎麼花自己的錢。這裡面沒有規律么?肯定有,但是具體什麼規律呢?卻很難說清楚。

基於專家系統的經濟屬於計劃經濟,整個經濟規律的表示不希望通過每個經濟個體的獨立決策表現出來,而是希望通過專家的高屋建瓴和遠見卓識總結出來。專家永遠不可能知道哪個城市的哪個街道缺少一個賣甜豆腐腦的。於是專家說應該產多少鋼鐵,產多少饅頭,往往距離人民生活的真正需求有較大的差距,就算整個計劃書寫個幾百頁,也無法表達隱藏在人民生活中的小規律。

基於統計的宏觀調控就靠譜的多了,每年統計局都會統計整個社會的就業率,通脹率,GDP等等指標,這些指標往往代表著很多的內在規律,雖然不能夠精確表達,但是相對靠譜。然而基於統計的規律總結表達相對比較粗糙,比如經濟學家看到這些統計數據可以總結出長期來看房價是漲還是跌,股票長期來看是漲還是跌,如果經濟總體上揚,房價和股票應該都是漲的。但是基於統計數據,無法總結出股票,物價的微小波動規律。

基於神經網路的微觀經濟學才是對整個經濟規律最最准確的表達,每個人對於從社會中的輸入,進行各自的調整,並且調整同樣會作為輸入反饋到社會中。想像一下股市行情細微的波動曲線,正是每個獨立的個體各自不斷交易的結果,沒有統一的規律可循。而每個人根據整個社會的輸入進行獨立決策,當某些因素經過多次訓練,也會形成宏觀上的統計性的規律,這也就是宏觀經濟學所能看到的。例如每次貨幣大量發行,最後房價都會上漲,多次訓練後,人們也就都學會了。

然而神經網路包含這么多的節點,每個節點包含非常多的參數,整個參數量實在是太大了,需要的計算量實在太大,但是沒有關系啊,我們有大數據平台,可以匯聚多台機器的力量一起來計算,才能在有限的時間內得到想要的結果。

於是工智能程序作為SaaS平台進入了雲計算。

網易將人工智慧這個強大的技術,應用於反垃圾工作中,從網易1997年推出郵箱產品開始,我們的反垃圾技術就在不停的進化升級,並且成功應用到各個億量級用戶的產品線中,包括影音娛樂,游戲,社交,電商等產品線。比如網易新聞、博客相冊、雲音樂、雲閱讀、有道、BOBO、考拉、游戲等產品。總的來說,反垃圾技術在網易已經積累了19年的實踐經驗,一直在背後默默的為網易產品保駕護航。現在作為雲平台的SaaS服務開放出來。

回顧網易反垃圾技術發展歷程,大致上我們可以把他分為三個關鍵階段,也基本對應著人工智慧發展的三個時期:

第一階段主要是依賴關鍵詞,黑白名單和各種過濾器技術,來做一些內容的偵測和攔截,這也是最基礎的階段,受限於當時計算能力瓶頸以及演算法理論的發展,第一階段的技術也能勉強滿足使用。

第二個階段時,基於計算機行業里有一些更新的演算法,比如說貝葉斯過濾(基於概率論的演算法),一些膚色的識別,紋理的識別等等,這些比較優秀成熟的論文出來,我們可以基於這些演算法做更好的特徵匹配和技術改造,達到更優的反垃圾效果。

最後,隨著人工智慧演算法的進步和計算機運算能力的突飛猛進,反垃圾技術進化到第三個階段:大數據和人工智慧的階段。我們會用海量大數據做用戶的行為分析,對用戶做畫像,評估用戶是一個垃圾用戶還是一個正常用戶,增加用戶體驗更好的人機識別手段,以及對語義文本進行理解。還有基於人工智慧的圖像識別技術,更准確識別是否是色情圖片,廣告圖片以及一些違禁品圖片等等。

② 致力神經網路架構創新 助推人工智慧未來發展


——記南京大學電子科學與工程學院特聘教授王中風


提起人工智慧(AI),你首先想到的可能是機器人,但現階段,神經網路才是當紅的技術。自上世紀40年代相關的理論被提出後,神經網路經歷了幾十年跌宕起伏的發展。現如今,深度神經網路因其良好的學習和表達能力,已經在圖像處理、自然語言處理等多個領域取得了突破性進展,成為了人工智慧領域應用最為廣泛的模型。但是在實際運用過程中,深度神經網路龐大的參數量和計算量給傳統計算硬體帶來了處理速度燃前皮和能耗效率等方面的嚴峻挑戰,高能效深度神經網路加速器的優化設計與實現是新一代人工智慧應用快速落地的關鍵。

基於以上需求,信號處理系統超大規模集成電路(VLSI)設計領域的國際著名專家,南京大學電子科學與工程學院特聘教授王中風,針對深度學習系統的演算法優化與硬體加速展開了一系列研究。王中風教授兢兢業業、辛勤耕耘,為我國人工智慧和集成電路設計等技術發展做出了突出貢獻。

追逐夢想 秉承堅定科研情懷

王中風的人生與科研經歷可謂豐富多彩,中專時期,他以頑強的毅力自學完成了高中和大學數學課程;青年時期,他放棄鐵礦的「鐵飯碗」,克服重重困難,通過自學以全縣理科第一的成績考上清華大學自動化系;大學期間,他從未停歇過前進的腳步,以優異的成績提前完成本科學業並攻讀碩士學位;畢業後,他先就職於北京一家高 科技 公司,之後出國深造,進入美國明尼蘇達大學電機系繼續攻讀博士學位。讀博期間,他努力付出,先後在行業頂級期刊上發表多篇高質量論文,且於1999年獲得 IEEE 信號處理系統行業旗艦會議SiPS的最佳論文獎。

2000年博士畢業後,王中風先後進入美國國家半導體公司、俄勒岡州立大學電子與計算機工程學院以及美國博通公司工作,在不同單位都取得了一項又一項矚目成績。他曾先後參與十餘款商用晶元的研發工作,主持設計的一些核心模塊性能指標在行業處於領先地位。他的有關技術提案先後被IEEE等十餘種網路通信標准所採納。2015年,因在FEC(糾錯碼)設計與VLSI(超大規模集成電路)實現方面的突出貢獻,他被評為IEEE Fellow。

雖然在美國有著優越的科研環境,王中風卻清楚地知道,這並非他心之所向。「科學無國界,但科學家有國界」,身在海外,王中風一直心繫祖國的發展,「那裡才是家國和故土,要為她歷盡所能」。 2016年,當祖國以「國際特聘專家」的形式召喚海外遊子回國時,他毅然在事業的上升期回到祖國的懷抱,矢志為祖國的科研產業發展貢獻自己的力量。

2016年,王中風進入南京大學電子科學與工程學院,同年,他牽頭創建集成電路與智能系統(ICAIS)實驗室,以數字通信與機器學習的設計與硬體優化為中心,面向智能製造、智慧工地及智慧社區等國家經濟重大需求,和國內外諸多名校及一些頂尖企業開展合作,積極推動和引領中國集成電路設計領域發展,努力攻克技術瓶頸。如今,王中風的科研團隊在國際集成電路設計領域已頗具影響,科研報國的夢想正在一步步實現。

開拓創新 突破人工智慧晶元

「志之所趨,無遠弗屆。窮山距海,不能限也」。回國之後,王中風教授快速組建團隊,精心布局,全面展開工作。憑借著皮差20多年數字信號處理與IC設計領域豐富的研發經驗,他帶領團隊以「演算法與硬體架構協同設計優化」為中心,在人工智慧演算法與硬體架構,低功耗、強糾錯能力信道編/解碼硬體架構設計及可信計算加速等科研方向上全面發力,並取得了顯著的學術成果。

具體到人工智慧晶元設計方面,王中風帶領團隊開發了多維度的硬體友好型神經網路壓縮演算法和悔虛一系列高效深度學習的推理和訓練硬體加速架構。在演算法優化層面,他們創新了硬體加速架構對冗餘信息的挖掘和處理方式,充分利用不同維度冗餘信息的正交性,將動態計算調整與靜態參數壓縮相結合,在保證推理精度的前提下,顯著降低了深度學習演算法的計算復雜度和參數量。此外,團隊就卷積神經網路等常用模型開展了全面系統地研究,創造性地開發了一系列計算優化及數據流優化方案,其中包括基於快速演算法的卷積加速技術和層間融合復用的數據傳輸方案等,解決了其硬體設計在計算能力和傳輸帶寬方面的兩大瓶頸,大幅提升了系統計算效率、能效和吞吐率。

在硬體實現層面,針對神經網路中廣泛存在的稀疏性及其並行處理時無法充分提升能效的瓶頸問題,他們引入了局部串列和全局並行的設計思想,可在不損失精度的前提下充分利用神經網路冗餘性,明顯提升了AI推理加速器的功耗效率。結合完整工具鏈的定製設計,該高效架構可以在不同場景中得到廣泛應用。在訓練加速器設計方面,王中風是最早 探索 新型數據表示格式的運用和可重構訓練加速器架構設計的學者之一。他帶領團隊首次利用Posit數據格式,設計了一種高效深度神經網路訓練方法和Posit專用低復雜度乘累加單元,在大幅降低計算、存儲開銷和帶寬需求的同時,實現了與全精度浮點數據格式下相同的模型精度。此外,王中風帶領團隊將高速電路設計領域最常用的並行計算與流水線處理技術充分運用到神經網路加速架構中,突破了遞歸計算帶來的系統時鍾瓶頸,從而最終提高了加速器整體的吞吐率上限。

為了促進產學研的協同創新,王中風在2018年牽頭創立了南京風興 科技 有限公司,致力於人工智慧晶元及智能系統解決方案等相關產品的研發。公司擁有國際領先的低功耗集成電路設計與優化技術,2020年獨家推出了針對高性能智能計算的高能效稀疏神經網路計算晶元架構,支持常用深度學習演算法,解決了AI晶元領域存在的通用性與高性能難以兼顧的難題,具有行業領先的能效比,可以滿足雲-邊-端多種推理應用場景,減輕AI計算對內存帶寬和存儲的極高要求;在顯著提升晶元性能的同時,能夠大幅降低晶元成本,從而有效推動人工智慧演算法在諸多領域的實際落地。

天道酬勤,付出的汗水澆灌出了美麗的花朵,自2016年回國工作以來,王中風先後獲得江蘇省「雙創人才」、「雙創團隊」領軍人才、南京市「高層次創新人才」、「 科技 頂尖專家集聚計劃」A類人才等榮譽和獎勵。2020年榮獲吳文俊人工智慧 科技 進步獎。2018-2021年,王中風共有7篇合著論文(均為通信作者)進入 IEEE 集成電路相關行業旗艦會議最佳論文獎的最終候選名單,其中關於AI硬體加速器設計方面的工作創紀錄地在18個月內連續四次榮獲IEEE權威學術會議的年度最佳論文獎。與此同時,王中風團隊已經申請發明專利數十項,其中9項專利被產業轉化,帶動 社會 資本投資數千萬元。這些成績也激勵著王中風教授不斷拓寬研究方向,砥礪向前。

③ 神經網路淺談

人工智慧技術是當前炙手可熱的話題,而基於神經網路的深度學習技術更是熱點中的熱點。去年穀歌的Alpha Go 以4:1大比分的優勢戰勝韓國的李世石九段,展現了深度學習的強大威力,後續強化版的Alpha Master和無師自通的Alpha Zero更是在表現上完全碾壓前者。不論你怎麼看,以深度學習為代表的人工智慧技術正在塑造未來。

下圖為英偉達(NVIDIA)公司近年來的股價情況, 該公司的主要產品是「圖形處理器」(GPU),而GPU被證明能大大加快神經網路的訓練速度,是深度學習必不可少的計算組件。英偉達公司近年來股價的飛漲足以證明當前深度學習的井噴之勢。

好,話不多說,下面簡要介紹神經網路的基本原理、發展脈絡和優勢。

神經網路是一種人類由於受到生物神經細胞結構啟發而研究出的一種演算法體系,是機器學習演算法大類中的一種。首先讓我們來看人腦神經元細胞:

一個神經元通常具有多個樹突 ,主要用來接受傳入信息,而軸突只有一條,軸突尾端有許多軸突末梢,可以給其他多個神經元傳遞信息。軸突末梢跟其他神經元的樹突產生連接,從而傳遞信號。

下圖是一個經典的神經網路(Artificial Neural Network,ANN):

乍一看跟傳統互聯網的拓撲圖有點類似,這也是稱其為網路的原因,不同的是節點之間通過有向線段連接,並且節點被分成三層。我們稱圖中的圓圈為神經元,左邊三個神經元組成的一列為輸入層,中間神經元列為隱藏層,右邊神經元列為輸出層,神經元之間的箭頭為權重。

神經元是計算單元,相當於神經元細胞的細胞核,利用輸入的數據進行計算,然後輸出,一般由一個線性計算部分和一個非線性計算部分組成;輸入層和輸出層實現數據的輸入輸出,相當於細胞的樹突和軸突末梢;隱藏層指既不是輸入也不是輸出的神經元層,一個神經網路可以有很多個隱藏層。

神經網路的關鍵不是圓圈代表的神經元,而是每條連接線對應的權重。每條連接線對應一個權重,也就是一個參數。權重具體的值需要通過神經網路的訓練才能獲得。我們實際生活中的學習體現在大腦中就是一系列神經網路迴路的建立與強化,多次重復的學習能讓迴路變得更加粗壯,使得信號的傳遞速度加快,最後對外表現為「深刻」的記憶。人工神經網路的訓練也借鑒於此,如果某種映射關系出現很多次,那麼在訓練過程中就相應調高其權重。

1943年,心理學家McCulloch和數學家Pitts參考了生物神經元的結構,發表了抽象的神經元模型MP:

符號化後的模型如下:

Sum函數計算各權重與輸入乘積的線性組合,是神經元中的線性計算部分,而sgn是取符號函數,當輸入大於0時,輸出1,反之輸出0,是神經元中的非線性部分。向量化後的公式為z=sgn(w^T a)(w^T=(w_1,w_2,w_3),a=〖(a_1,a_2,a_3)〗^T)。

但是,MP模型中,權重的值都是預先設置的,因此不能學習。該模型雖然簡單,並且作用有限,但已經建立了神經網路大廈的地基

1958年,計算科學家Rosenblatt提出了由兩層神經元組成(一個輸入層,一個輸出層)的神經網路。他給它起了一個名字–「感知器」(Perceptron)

感知器是當時首個可以學習的人工神經網路。Rosenblatt現場演示了其學習識別簡單圖像的過程,在當時引起了轟動,掀起了第一波神經網路的研究熱潮。

但感知器只能做簡單的線性分類任務。1969年,人工智慧領域的巨擘Minsky指出這點,並同時指出感知器對XOR(異或,即兩個輸入相同時輸出0,不同時輸出1)這樣的簡單邏輯都無法解決。所以,明斯基認為神經網路是沒有價值的。

隨後,神經網路的研究進入低谷,又稱 AI Winter 。

Minsky說過單層神經網路無法解決異或問題,但是當增加一個計算層以後,兩層神經網路不僅可以解決異或問題,而且具有非常好的非線性分類效果。

下圖為兩層神經網路(輸入層一般不算在內):

上圖中,輸出層的輸入是上一層的輸出。

向量化後的公式為:

注意:

每個神經元節點默認都有偏置變數b,加上偏置變數後的計算公式為:

同時,兩層神經網路不再使用sgn函數作為激勵函數,而採用平滑的sigmoid函數:

σ(z)=1/(1+e^(-z) )

其圖像如下:

理論證明: 兩層及以上的神經網路可以無限逼近真實的對應函數,從而模擬數據之間的真實關系 ,這是神經網路強大預測能力的根本。但兩層神經網路的計算量太大,當時的計算機的計算能力完全跟不上,直到1986年,Rumelhar和Hinton等人提出了反向傳播(Backpropagation,BP)演算法,解決了兩層神經網路所需要的復雜計算量問題,帶動了業界使用兩層神經網路研究的熱潮。

但好景不長,演算法的改進僅使得神經網路風光了幾年,然而計算能力不夠,局部最優解,調參等一系列問題一直困擾研究人員。90年代中期,由Vapnik等人發明的SVM(Support Vector Machines,支持向量機)演算法誕生,很快就在若干個方面體現出了對比神經網路的優勢:無需調參;高效;全局最優解。

由於以上原因,SVM迅速打敗了神經網路演算法成為主流。神經網路的研究再一次進入低谷, AI Winter again 。

多層神經網路一般指兩層或兩層以上的神經網路(不包括輸入層),更多情況下指兩層以上的神經網路。

2006年,Hinton提出使用 預訓練 」(pre-training)和「微調」(fine-tuning)技術能優化神經網路訓練,大幅度減少訓練多層神經網路的時間

並且,他給多層神經網路相關的學習方法賦予了一個新名詞–「 深度學習 」,以此為起點,「深度學習」紀元開始了:)

「深度學習」一方面指神經網路的比較「深」,也就是層數較多;另一方面也可以指神經網路能學到很多深層次的東西。研究發現,在權重參數不變的情況下,增加神經網路的層數,能增強神經網路的表達能力。

但深度學習究竟有多強大呢?沒人知道。2012年,Hinton與他的學生在ImageNet競賽中,用多層的卷積神經網路成功地對包含一千類別的一百萬張圖片進行了訓練,取得了分類錯誤率15%的好成績,這個成績比第二名高了近11個百分點,充分證明了多層神經網路識別效果的優越性。

同時,科研人員發現GPU的大規模並行矩陣運算模式完美地契合神經網路訓練的需要,在同等情況下,GPU的速度要比CPU快50-200倍,這使得神經網路的訓練時間大大減少,最終再一次掀起了神經網路研究的熱潮,並且一直持續到現在。

2016年基於深度學習的Alpha Go在圍棋比賽中以4:1的大比分優勢戰勝了李世石,深度學習的威力再一次震驚了世界。

神經網路的發展歷史曲折盪漾,既有被捧上神壇的高潮,也有無人問津的低谷,中間經歷了數次大起大落,我們姑且稱之為「三起三落」吧,其背後則是演算法的改進和計算能力的持續發展。

下圖展示了神經網路自發明以來的發展情況及一些重大時間節點。

當然,對於神經網路我們也要保持清醒的頭腦。由上圖,每次神經網路研究的興盛期持續10年左右,從最近2012年算起,或許10年後的2022年,神經網路的發展將再次遇到瓶頸。

神經網路作為機器學習的一種,其模型訓練的目的,就是使得參數盡可能的與真實的模型逼近。理論證明,兩層及以上的神經網路可以無限逼近真實的映射函數。因此,給定足夠的訓練數據和訓練時間,總能通過神經網路找到無限逼近真實關系的模型。

具體做法:首先給所有權重參數賦上隨機值,然後使用這些隨機生成的參數值,來預測訓練數據中的樣本。假設樣本的預測目標為yp ,真實目標為y,定義值loss,計算公式如下:

loss = (yp -y) ^2

這個值稱之為 損失 (loss),我們的目標就是使對所有訓練數據的損失和盡可能的小,這就轉化為求loss函數極值的問題。

一個常用方法是高等數學中的求導,但由於參數不止一個,求導後計算導數等於0的運算量很大,所以常用梯度下降演算法來解決這樣的優化問題。梯度是一個向量,由函數的各自變數的偏導數組成。

比如對二元函數 f =(x,y),則梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函數值上升最快的方向。梯度下降演算法每次計算參數在當前的梯度,然後讓參數向著梯度的反方向前進一段距離,不斷重復,直到梯度接近零時截止。一般這個時候,所有的參數恰好達到使損失函數達到一個最低值的狀態。下圖為梯度下降的大致運行過程:

在神經網路模型中,由於結構復雜,每次計算梯度的代價很大。因此還需要使用 反向傳播 (Back Propagation)演算法。反向傳播演算法利用了神經網路的結構進行計算,不一次計算所有參數的梯度,而是從後往前。首先計算輸出層的梯度,然後是第二個參數矩陣的梯度,接著是中間層的梯度,再然後是第一個參數矩陣的梯度,最後是輸入層的梯度。計算結束以後,所要的兩個參數矩陣的梯度就都有了。當然,梯度下降只是其中一個優化演算法,其他的還有牛頓法、RMSprop等。

確定loss函數的最小值後,我們就確定了整個神經網路的權重,完成神經網路的訓練。

在神經網路中一樣的參數數量,可以用更深的層次去表達。

由上圖,不算上偏置參數的話,共有三層神經元,33個權重參數。

由下圖,保持權重參數不變,但增加了兩層神經元。

在多層神經網路中,每一層的輸入是前一層的輸出,相當於在前一層的基礎上學習,更深層次的神經網路意味著更深入的表示特徵,以及更強的函數模擬能力。更深入的表示特徵可以這樣理解,隨著網路的層數增加,每一層對於前一層次的抽象表示更深入。

如上圖,第一個隱藏層學習到「邊緣」的特徵,第二個隱藏層學習到「邊緣」組成的「形狀」的特徵,第三個隱藏層學習到由「形狀」組成的「圖案」的特徵,最後的隱藏層學習到由「圖案」組成的「目標」的特徵。通過抽取更抽象的特徵來對事物進行區分,從而獲得更好的區分與分類能力。

前面提到, 明斯基認為Rosenblatt提出的感知器模型不能處理最簡單的「異或」(XOR)非線性問題,所以神經網路的研究沒有前途,但當增加一層神經元後,異或問題得到了很好地解決,原因何在?原來從輸入層到隱藏層,數據發生了空間變換,坐標系發生了改變,因為矩陣運算本質上就是一種空間變換。

如下圖,紅色和藍色的分界線是最終的分類結果,可以看到,該分界線是一條非常平滑的曲線。

但是,改變坐標系後,分界線卻表現為直線,如下圖:

同時,非線性激勵函數的引入使得神經網路對非線性問題的表達能力大大加強。

對於傳統的樸素貝葉斯、決策樹、支持向量機SVM等分類器,提取特徵是一個非常重要的前置工作。在正式訓練之前,需要花費大量的時間在數據的清洗上,這樣分類器才能清楚地知道數據的維度,要不然基於概率和空間距離的線性分類器是沒辦法進行工作的。然而在神經網路中,由於巨量的線性分類器的堆疊(並行和串列)以及卷積神經網路的使用,它對雜訊的忍耐能力、對多通道數據上投射出來的不同特徵偏向的敏感程度會自動重視或忽略,這樣我們在處理的時候,就不需要使用太多的技巧用於數據的清洗了。有趣的是,業內大佬常感嘆,「你可能知道SVM等機器學習的所有細節,但是效果並不好,而神經網路更像是一個黑盒,很難知道它究竟在做什麼,但工作效果卻很好」。

人類對機器學習的環節干預越少,就意味著距離人工智慧的方向越近。神經網路的這個特性非常有吸引力。

1) 谷歌的TensorFlow開發了一個非常有意思的神經網路 入門教程 ,用戶可以非常方便地在網頁上更改神經網路的參數,並且能看到實時的學習效率和結果,非常適合初學者掌握神經網路的基本概念及神經網路的原理。網頁截圖如下:

2) 深度學習領域大佬吳恩達不久前發布的《 神經網路和深度學習 》MOOC,現在可以在網易雲課堂上免費觀看了,並且還有中文字幕。

3) 《神經網路於深度學習》(Michael Nielsen著)、《白話深度學習與TensorFlow》也是不錯的入門書籍。

④ 人工神經網路概念梳理與實例演示

人工神經網路概念梳理與實例演示
神經網路是一種模仿生物神經元的機器學習模型,數據從輸入層進入並流經激活閾值的多個節點。
遞歸性神經網路一種能夠對之前輸入數據進行內部存儲記憶的神經網路,所以他們能夠學習到數據流中的時間依賴結構。
如今機器學習已經被應用到很多的產品中去了,例如,siri、Google Now等智能助手,推薦引擎——亞馬遜網站用於推薦商品的推薦引擎,Google和Facebook使用的廣告排名系統。最近,深度學習的一些進步將機器學習帶入公眾視野:AlphaGo 打敗圍棋大師李世石事件以及一些圖片識別和機器翻譯等新產品的出現。
在這部分中,我們將介紹一些強大並被普遍使用的機器學習技術。這當然包括一些深度學習以及一些滿足現代業務需求傳統方法。讀完這一系列的文章之後,你就掌握了必要的知識,便可以將具體的機器學習實驗應用到你所在的領域當中。
隨著深層神經網路的精度的提高,語音和圖像識別技術的應用吸引了大眾的注意力,關於AI和深度學習的研究也變得更加普遍了。但是怎麼能夠讓它進一步擴大影響力,更受歡迎仍然是一個問題。這篇文章的主要內容是:簡述前饋神經網路和遞歸神經網路、怎樣搭建一個遞歸神經網路對時間系列數據進行異常檢測。為了讓我們的討論更加具體化,我們將演示一下怎麼用Deeplearning4j搭建神經網路。
一、什麼是神經網路?
人工神經網路演算法的最初構思是模仿生物神經元。但是這個類比很不可靠。人工神經網路的每一個特徵都是對生物神經元的一種折射:每一個節點與激活閾值、觸發的連接。
連接人工神經元系統建立起來之後,我們就能夠對這些系統進行訓練,從而讓他們學習到數據中的一些模式,學到之後就能執行回歸、分類、聚類、預測等功能。
人工神經網路可以看作是計算節點的集合。數據通過這些節點進入神經網路的輸入層,再通過神經網路的隱藏層直到關於數據的一個結論或者結果出現,這個過程才會停止。神經網路產出的結果會跟預期的結果進行比較,神經網路得出的結果與正確結果的不同點會被用來更正神經網路節點的激活閾值。隨著這個過程的不斷重復,神經網路的輸出結果就會無限靠近預期結果。
二、訓練過程
在搭建一個神經網路系統之前,你必須先了解訓練的過程以及網路輸出結果是怎麼產生的。然而我們並不想過度深入的了解這些方程式,下面是一個簡短的介紹。
網路的輸入節點收到一個數值數組(或許是叫做張量多維度數組)就代表輸入數據。例如, 圖像中的每個像素可以表示為一個標量,然後將像素傳遞給一個節點。輸入數據將會與神經網路的參數相乘,這個輸入數據被擴大還是減小取決於它的重要性,換句話說,取決於這個像素就不會影響神經網路關於整個輸入數據的結論。
起初這些參數都是隨機的,也就是說神經網路在建立初期根本就不了解數據的結構。每個節點的激活函數決定了每個輸入節點的輸出結果。所以每個節點是否能夠被激活取決於它是否接受到足夠的刺激強度,即是否輸入數據和參數的結果超出了激活閾值的界限。
在所謂的密集或完全連接層中,每個節點的輸出值都會傳遞給後續層的節點,在通過所有隱藏層後最終到達輸出層,也就是產生輸入結果的地方。在輸出層, 神經網路得到的最終結論將會跟預期結論進行比較(例如,圖片中的這些像素代表一隻貓還是狗?)。神經網路猜測的結果與正確結果的計算誤差都會被納入到一個測試集中,神經網路又會利用這些計算誤差來不斷更新參數,以此來改變圖片中不同像素的重要程度。整個過程的目的就是降低輸出結果與預期結果的誤差,正確地標注出這個圖像到底是不是一條狗。
深度學習是一個復雜的過程,由於大量的矩陣系數需要被修改所以它就涉及到矩陣代數、衍生品、概率和密集的硬體使用問題,但是用戶不需要全部了解這些復雜性。
但是,你也應該知道一些基本參數,這將幫助你理解神經網路函數。這其中包括激活函數、優化演算法和目標函數(也稱為損失、成本或誤差函數)。
激活函數決定了信號是否以及在多大程度上應該被發送到連接節點。階梯函數是最常用的激活函數, 如果其輸入小於某個閾值就是0,如果其輸入大於閾值就是1。節點都會通過階梯激活函數向連接節點發送一個0或1。優化演算法決定了神經網路怎麼樣學習,以及測試完誤差後,權重怎麼樣被更准確地調整。最常見的優化演算法是隨機梯度下降法。最後, 成本函數常用來衡量誤差,通過對比一個給定訓練樣本中得出的結果與預期結果的不同來評定神經網路的執行效果。
Keras、Deeplearning4j 等開源框架讓創建神經網路變得簡單。創建神經網路結構時,需要考慮的是怎樣將你的數據類型匹配到一個已知的被解決的問題,並且根據你的實際需求來修改現有結構。
三、神經網路的類型以及應用
神經網路已經被了解和應用了數十年了,但是最近的一些技術趨勢才使得深度神經網路變得更加高效。
GPUs使得矩陣操作速度更快;分布式計算結構讓計算能力大大增強;多個超參數的組合也讓迭代的速度提升。所有這些都讓訓練的速度大大加快,迅速找到適合的結構。
隨著更大數據集的產生,類似於ImageNet 的大型高質量的標簽數據集應運而生。機器學習演算法訓練的數據越大,那麼它的准確性就會越高。
最後,隨著我們理解能力以及神經網路演算法的不斷提升,神經網路的准確性在語音識別、機器翻譯以及一些機器感知和面向目標的一些任務等方面不斷刷新記錄。
盡管神經網路架構非常的大,但是主要用到的神經網路種類也就是下面的幾種。
3.1前饋神經網路
前饋神經網路包括一個輸入層、一個輸出層以及一個或多個的隱藏層。前饋神經網路可以做出很好的通用逼近器,並且能夠被用來創建通用模型。
這種類型的神經網路可用於分類和回歸。例如,當使用前饋網路進行分類時,輸出層神經元的個數等於類的數量。從概念上講, 激活了的輸出神經元決定了神經網路所預測的類。更准確地說, 每個輸出神經元返回一個記錄與分類相匹配的概率數,其中概率最高的分類將被選為模型的輸出分類。
前饋神經網路的優勢是簡單易用,與其他類型的神經網路相比更簡單,並且有一大堆的應用實例。
3.2卷積神經網路
卷積神經網路和前饋神經網路是非常相似的,至少是數據的傳輸方式類似。他們結構大致上是模仿了視覺皮層。卷積神經網路通過許多的過濾器。這些過濾器主要集中在一個圖像子集、補丁、圖塊的特徵識別上。每一個過濾器都在尋找不同模式的視覺數據,例如,有的可能是找水平線,有的是找對角線,有的是找垂直的。這些線條都被看作是特徵,當過濾器經過圖像時,他們就會構造出特徵圖譜來定位各類線是出現在圖像的哪些地方。圖像中的不同物體,像貓、747s、榨汁機等都會有不同的圖像特徵,這些圖像特徵就能使圖像完成分類。卷積神經網路在圖像識別和語音識別方面是非常的有效的。
卷積神經網路與前饋神經網路在圖像識別方面的異同比較。雖然這兩種網路類型都能夠進行圖像識別,但是方式卻不同。卷積神經網路是通過識別圖像的重疊部分,然後學習識別不同部分的特徵進行訓練;然而,前饋神經網路是在整張圖片上進行訓練。前饋神經網路總是在圖片的某一特殊部分或者方向進行訓練,所以當圖片的特徵出現在其他地方時就不會被識別到,然而卷積神經網路卻能夠很好的避免這一點。
卷積神經網路主要是用於圖像、視頻、語音、聲音識別以及無人駕駛的任務。盡管這篇文章主要是討論遞歸神經網路的,但是卷積神經網路在圖像識別方面也是非常有效的,所以很有必要了解。
3.3遞歸神經網路
與前饋神經網路不同的是,遞歸神經網路的隱藏層的節點里有內部記憶存儲功能,隨著輸入數據的改變而內部記憶內容不斷被更新。遞歸神經網路的結論都是基於當前的輸入和之前存儲的數據而得出的。遞歸神經網路能夠充分利用這種內部記憶存儲狀態處理任意序列的數據,例如時間序列。
遞歸神經網路經常用於手寫識別、語音識別、日誌分析、欺詐檢測和網路安全。
遞歸神經網路是處理時間維度數據集的最好方法,它可以處理以下數據:網路日誌和伺服器活動、硬體或者是醫療設備的感測器數據、金融交易、電話記錄。想要追蹤數據在不同階段的依賴和關聯關系需要你了解當前和之前的一些數據狀態。盡管我們通過前饋神經網路也可以獲取事件,隨著時間的推移移動到另外一個事件,這將使我們限制在對事件的依賴中,所以這種方式很不靈活。
追蹤在時間維度上有長期依賴的數據的更好方法是用內存來儲存重要事件,以使近期事件能夠被理解和分類。遞歸神經網路最好的一點就是在它的隱藏層裡面有「內存」可以學習到時間依賴特徵的重要性。
接下來我們將討論遞歸神經網路在字元生成器和網路異常檢測中的應用。遞歸神經網路可以檢測出不同時間段的依賴特徵的能力使得它可以進行時間序列數據的異常檢測。
遞歸神經網路的應用
網路上有很多使用RNNs生成文本的例子,遞歸神經網路經過語料庫的訓練之後,只要輸入一個字元,就可以預測下一個字元。下面讓我們通過一些實用例子發現更多RNNs的特徵。
應用一、RNNs用於字元生成
遞歸神經網路經過訓練之後可以把英文字元當做成一系列的時間依賴事件。經過訓練後它會學習到一個字元經常跟著另外一個字元(「e」經常跟在「h」後面,像在「the、he、she」中)。由於它能預測下一個字元是什麼,所以它能有效地減少文本的輸入錯誤。
Java是個很有趣的例子,因為它的結構包括很多嵌套結構,有一個開的圓括弧必然後面就會有一個閉的,花括弧也是同理。他們之間的依賴關系並不會在位置上表現的很明顯,因為多個事件之間的關系不是靠所在位置的距離確定的。但是就算是不明確告訴遞歸神經網路Java中各個事件的依賴關系,它也能自己學習了解到。
在異常檢測當中,我們要求神經網路能夠檢測出數據中相似、隱藏的或許是並不明顯的模式。就像是一個字元生成器在充分地了解數據的結構後就會生成一個數據的擬像,遞歸神經網路的異常檢測就是在其充分了解數據結構後來判斷輸入的數據是不是正常。
字元生成的例子表明遞歸神經網路有在不同時間范圍內學習到時間依賴關系的能力,它的這種能力還可以用來檢測網路活動日誌的異常。
異常檢測能夠使文本中的語法錯誤浮出水面,這是因為我們所寫的東西是由語法結構所決定的。同理,網路行為也是有結構的,它也有一個能夠被學習的可預測模式。經過在正常網路活動中訓練的遞歸神經網路可以監測到入侵行為,因為這些入侵行為的出現就像是一個句子沒有標點符號一樣異常。
應用二、一個網路異常檢測項目的示例
假設我們想要了解的網路異常檢測就是能夠得到硬體故障、應用程序失敗、以及入侵的一些信息。
模型將會向我們展示什麼呢?
隨著大量的網路活動日誌被輸入到遞歸神經網路中去,神經網路就能學習到正常的網路活動應該是什麼樣子的。當這個被訓練的網路被輸入新的數據時,它就能偶判斷出哪些是正常的活動,哪些是被期待的,哪些是異常的。
訓練一個神經網路來識別預期行為是有好處的,因為異常數據不多,或者是不能夠准確的將異常行為進行分類。我們在正常的數據里進行訓練,它就能夠在未來的某個時間點提醒我們非正常活動的出現。
說句題外話,訓練的神經網路並不一定非得識別到特定事情發生的特定時間點(例如,它不知道那個特殊的日子就是周日),但是它一定會發現一些值得我們注意的一些更明顯的時間模式和一些可能並不明顯的事件之間的聯系。
我們將概述一下怎麼用 Deeplearning4j(一個在JVM上被廣泛應用的深度學習開源資料庫)來解決這個問題。Deeplearning4j在模型開發過程中提供了很多有用的工具:DataVec是一款為ETL(提取-轉化-載入)任務准備模型訓練數據的集成工具。正如Sqoop為Hadoop載入數據,DataVec將數據進行清洗、預處理、規范化與標准化之後將數據載入到神經網路。這跟Trifacta』s Wrangler也相似,只不過它更關注二進制數據。
開始階段
第一階段包括典型的大數據任務和ETL:我們需要收集、移動、儲存、准備、規范化、矢量話日誌。時間跨度的長短是必須被規定好的。數據的轉化需要花費一些功夫,這是由於JSON日誌、文本日誌、還有一些非連續標注模式都必須被識別並且轉化為數值數組。DataVec能夠幫助進行轉化和規范化數據。在開發機器學習訓練模型時,數據需要分為訓練集和測試集。
訓練神經網路
神經網路的初始訓練需要在訓練數據集中進行。
在第一次訓練的時候,你需要調整一些超參數以使模型能夠實現在數據中學習。這個過程需要控制在合理的時間內。關於超參數我們將在之後進行討論。在模型訓練的過程中,你應該以降低錯誤為目標。
但是這可能會出現神經網路模型過度擬合的風險。有過度擬合現象出現的模型往往會在訓練集中的很高的分數,但是在遇到新的數據時就會得出錯誤結論。用機器學習的語言來說就是它不夠通用化。Deeplearning4J提供正則化的工具和「過早停止」來避免訓練過程中的過度擬合。
神經網路的訓練是最花費時間和耗費硬體的一步。在GPUs上訓練能夠有效的減少訓練時間,尤其是做圖像識別的時候。但是額外的硬體設施就帶來多餘的花銷,所以你的深度學習的框架必須能夠有效的利用硬體設施。Azure和亞馬遜等雲服務提供了基於GPU的實例,神經網路還可以在異構集群上進行訓練。
創建模型
Deeplearning4J提供ModelSerializer來保存訓練模型。訓練模型可以被保存或者是在之後的訓練中被使用或更新。
在執行異常檢測的過程中,日誌文件的格式需要與訓練模型一致,基於神經網路的輸出結果,你將會得到是否當前的活動符合正常網路行為預期的結論。
代碼示例
遞歸神經網路的結構應該是這樣子的:
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder(
.seed(123)
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)
.weightInit(WeightInit.XAVIER)
.updater(Updater.NESTEROVS).momentum(0.9)
.learningRate(0.005)
.gradientNormalization(GradientNormalization.ClipElementWiseAbsoluteValue)
.(0.5)
.list()
.layer(0, new GravesLSTM.Builder().activation("tanh").nIn(1).nOut(10).build())
.layer(1, new RnnOutputLayer.Builder(LossFunctions.LossFunction.MCXENT)
.activation("softmax").nIn(10).nOut(numLabelClasses).build())
.pretrain(false).backprop(true).build();
MultiLayerNetwork net = new MultiLayerNetwork(conf);
net.init();
下面解釋一下幾行重要的代碼:
.seed(123)
隨機設置一個種子值對神經網路的權值進行初始化,以此獲得一個有復驗性的結果。系數通常都是被隨機的初始化的,以使我們在調整其他超參數時仍獲得一致的結果。我們需要設定一個種子值,讓我們在調整和測試的時候能夠用這個隨機的權值。
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)
決定使用哪個最優演算法(在這個例子中是隨機梯度下降法)來調整權值以提高誤差分數。你可能不需要對這個進行修改。
.learningRate(0.005)
當我們使用隨機梯度下降法的時候,誤差梯度就被計算出來了。在我們試圖將誤差值減到最小的過程中,權值也隨之變化。SGD給我們一個讓誤差更小的方向,這個學習效率就決定了我們該在這個方向上邁多大的梯度。如果學習效率太高,你可能是超過了誤差最小值;如果太低,你的訓練可能將會永遠進行。這是一個你需要調整的超參數。

⑤ 沒有顯卡能用虛擬顯卡嗎

啟用Docker虛擬機GPU,加速深度學習_AndyCheng_hgcc的博客

Docker虛擬機首先說一下Docker虛擬機。為什麼需要虛擬機?不知道你是否有過這樣的經歷,在github上看到一個有趣的開源項目,把代碼下載下來,按照項目上的說明編譯運行,結果發現怎麼也不能成功。

繼續訪問

linux怎麼訓練神經網路,神經網路訓練在Linux虛擬機的速度快過...

checkbias:float64checkdata:float64==>floattype:float32Datasetisloaded...train60000andtest10000Epoch1:5542/10000,Cost(ontrain):1.9846122093061607,roundtime(s):20.16...

繼續訪問

深度學習訓練吃顯卡_深度學習為什麼需要顯卡計算?

先解釋一點,深度學習為什麼需要顯卡計算?GPU是為大規模的並行運算而優化;GPU上則更多的是運算單元(整數、浮點的乘加單元,特殊運算單元等等);GPU往往擁有更大帶寬的顯存,因此在大吞吐量的應用中也會有很好的性能。這里有一個很有趣的解釋視頻,解釋了GPU和CPU的計算區別。所以顯卡選擇最重要,因為准備基於CUDA計算(CUDA(ComputeUnifiedDevice...

繼續訪問

深度學習沒有GPU怎麼辦?

方案內容缺點方案一廳戚買礦卡P106-100,閑魚上不寫運費的都是默認順豐到付,我試了下,已經起糾紛了.礦卡損耗極大,買這個基本接盤,現在還在和賣家磨嘴皮子退貨方案二嘗試kagglenotebook訓練中途把模型傳到gitlfs,因為是大型文件,所以不能github,只能是gitlfsgit的機制是會記錄歷史數據,然後gitlfs...

繼續訪問

實驗室一塊GPU都沒有怎麼做深度學習?

鏈接:https://pan..com/s/1ncREw6Na9ycZptdxiVMApw

提取碼:appk獲得已有的Yolo3框架我使用的Yolo

繼續訪問

在Windows11平台上使用Hyper-V、WSL與虛擬機工具——調用NVIDIA-GPU進行深度學習訓練

1、目的是出於在window上安裝虛擬機穿透nvidia-gpu進行gpu調用加速。2、英偉達正式啟用GPU虛擬機顯卡直通功能:英偉達宣布,完全支持GeForceGPU直通技術,該技術允許虛擬機從主機上訪問GPU。

繼續訪問

熱門推薦虛擬機上不能使用CUDA

虛擬機的顯卡是虛擬的,不能中拆使用CUDA(至少很難),搞了一天才晃過神來:

繼續訪問

無GPU咋做深度學習、AI?恆源雲使用指南

搞深度學習沒有GPU可咋辦,老師不給買,colab又不穩定,難道自己配一台深度學習工作站嗎?由於之前的礦潮和晶元荒,且不說買的顯卡是否夠用,現在顯卡價格還處於高位,現在買一塊顯卡還是挺虧的!經過本人不斷探索,終於找到了一家便宜、好用的GPU雲伺服器平台,恆源雲(賣伏棗gpushare.com)。對於學生黨,第一要位就是價格,各位看官看下圖,3090隻要3r/h,2080ti也只要2r/h,這個價格夠公道了吧!平常跑跑模型用不了幾個錢,而且新手或者學生的代金券領完也100多r,這合計40多小時的3090免費

繼續訪問

最新發布深度學習訓練模型時,GPU顯存不夠怎麼辦?

作者丨遊客26024@知乎(已授權)編輯丨極市平台來源丨https://www.hu.com/question/461811359/answer/2492822726題外話,我為什麼要寫這篇博客,就是因為我窮!沒錢!租的伺服器使用多GPU時一會錢就燒沒了(gpu內存不用),急需要一種trick,來降低內存加速。回到正題,如果我們使用的數據集較大,且網路較深,則會造成訓練較慢,此時我們要想加...

繼續訪問

gcp試用gpu_如何在GCP上創建啟用GPU的VM來訓練您的神經網路

gcp試用,.(s)...

繼續訪問

安裝虛擬機之後怎麼配置虛擬環境、深度學習、深度強化學習環境安裝

一、配置虛擬機VMware安裝包&Ubuntu的光碟映像文件:在下面鏈接中選擇自己想要下載的Linux系統光碟映像文件和VMware安裝包。下載鏈接:下載Ubuntu&VMware的網盤鏈接.VMware安裝安裝鏈接:VMware安裝的CSDN鏈接.Ubuntu安裝打開VMware,點擊創建新的虛擬機選擇典型(推薦),並進入下一步瀏覽我們下載的iso文件目錄安裝程序光碟映像文件輸入自己的信息選擇一個適合的磁碟,新建一個文件夾作為安裝虛擬機的位置之後按照

繼續訪問

顯卡給2個虛擬機_虛擬化下的顯卡

5G時代的到來讓PC/圖形工作站有了更大的突破。不受帶寬和網路的限制,圖形計算以及重載應用的「雲」需求將爆發式增長,圖形雲將成為未來的趨勢。圖形處理引擎——顯卡所有電腦都有一個重要的硬體——顯卡(GPU)。GPU是圖形處理的核心部件,對圖形處理起到加速作用。顯卡採用立方環境的材質貼圖、硬體T&L、頂點混合、凹凸的映射貼圖和紋理壓縮、雙重紋理四像素256位的渲染引擎等重要技術,在...

繼續訪問

沒有顯卡怎麼使用anaconda配置tensorflow深度學習環境

深度學習環境配置——windows下的tensorflow-cpu=2.2.0環境配置環境內容tensorflow-cpu:2.2.0無需裝keras,tensorflow因為自帶了。環境配置一、Anaconda安裝Anaconda的安裝主要是為了方便環境管理,可以同時在一個電腦上安裝多種環境,不同環境放置不同框架:pytorch、tensorflow、keras可以在不同的環境下安裝,只需要使用condacreate–n創建新環境即可。1、Anaconda的下載——————..

繼續訪問

實驗室沒有顯卡怎麼深度學習

最近顯卡奇缺,遍歷了網上各種平台薅GPU羊毛,這里給大家介紹以下這個平台的福利!!!先附上鏈接:恆源雲_GPUSHARE-恆源智享雲恆源智享雲gpushare.com是一個專注AI行業的共享算力平台,旨在為用戶提供高性比價的GPU雲主機和存儲服務,讓用戶擁有高效的雲端編程和訓練體驗,不再擔憂硬體迭代/環境搭建/數據存儲等一系列問題。https://gpushare.com/auth/register?user=18*****7729&fromId=ce701711122&sou

繼續訪問

【深度學習CPU(番外篇)——虛擬內存】

⑥ 使用python在GPU上構建和訓練卷積神經網路

我將對代碼進行補充演練,以構建在數據集上訓練的任何類型的圖像分類器。在這個例子中,我將使用花卉數據集,其中包括102種不同類型的花。需要數據集和代碼都可以私信我。

Pytorch是機器學習和Python上的免費軟體包,非常易於使用。語法模擬numpy,因此,如果你在python中有一些科學計算經驗,那麼會相當有用的。賀寬只需幾行代碼,就可以下載預先訓練的數據集,使用定義的變換對圖像進叢襲行標准化,然後運行訓練。

創建和擴充數據集

為了增加數據集,我使用' google_images_download'API 從互聯網上下載了相關圖像。顯然,您可以使用此API不僅可以擴充現有數據集,還可以從頭開始創建自己的數據集。

確保從圖像中挑選出異常值(損壞的文件或偶然出現的無關圖像)。

圖像標准化

為了使圖像具有相同的大小和像素變化,可以使用pytorch的transfors模塊:

轉移學習

從頭開始訓練的模型可能不是最明智的選擇,因為有許多網路可用於各種數據集。簡單地說,像edge-和其他簡單形狀檢測器等低級特徵對於不同的模型是相似的,即使clasificators是針對不同目的進行訓練的。在本項目中,我使用了一個預訓練網路Resnet152,只有最後一個完全連接的層重新用於新任務,即使這樣也會產生相當好的效果。

在這里,我將除最後一層之外的所有層都設置為具有固定權重(requires_grad = False),因此只有最後層中的參數將通過梯度下降進行更新。

訓練模型

下面介紹一下進行訓練的函數:

如何獲得GPU?

當然,對CPU的訓練太慢了。根據我自己的經驗,在GPU僅需要一個小時就可以完成12次訓練周期,但是在CPU上相同數量的訓練周期可能需要花費大約15個小時。

如果您沒有本地可用的GPU,則可以考慮使用雲GPU。為了加速禪鄭亮CNN的訓練,我使用了floydhub(www.floydhub.com)上提供的雲GPU 。

這項服務非常指的使用:總有很好的文檔和大量的提示,所以你會很清楚的知道下一步需要如何去做。在floydhub上對於使用GPU的收費也是可以接受的。

首先,需要將數據集上傳到伺服器

然後,需要創建項目。需要在計算機上安裝floydhub客戶端,將數據集上載到其網站並在終端中運行以下命令

其中'username'是您的登錄名,'i'是數據集所在的文件夾。

這樣子在訓練網路時就會很輕鬆了

結果和改進想法

得到的模型在數據集上訓練了1.5小時,並在驗證數據集上達到了95%的准確度。

⑦ 神經網路(Neural Network)

(1)結構:許多樹突(dendrite)用於輸入,一個軸突 (axon)用於輸出。

(2)特性:興奮性和傳導性。興奮性是指當信號量超過某個閾值時,細胞體就會被激活,產生電脈沖。傳導性是指電脈沖沿著軸突並通過突觸傳遞到其它神經元。

(3)有兩種狀態的機器:激活時為「是」,不激活時為「否」。神經細胞的狀態取決於從其他神經細胞接收到的信號量,以及突觸的性質(抑制或加強)。

(1)神經元——不重要

① 神經元是包含權重和偏置項的 函數 :接收數據後,執行一些計算,然後使用激活函數將數據限制在一個范圍內(多數情況下)。

② 單個神經元:線性可分的情況下,本質是一條直線, ,這條直線將數據劃分為兩類。而線性分類器本身就是一個單層神經網路。

③ 神經網路:非線性可分的情況下,神經網路通過多個隱層的方法來實現非線性的函數。

(2)權重/參數/連接(Weight)——最重要

每一個連接上都有一個權重。一個神經網路的訓練演算法就是讓權重的值調整到最佳,以使得整個網路的預測效果最好。

(3)偏置項(Bias Units)——必須

① 如果沒有偏置項,所有的函數都會經過原點。

② 正則化偏置會導致欠擬合:若對偏置正則化,會爛猛導致激活變得更加簡單,偏差就會上升,學習的能力就會下降。

③ 偏置的大小度量了神經元產生激勵(激活)的難易程度。

(1)定義:也稱為轉換函數,是一種將輸入 (input) 轉成輸出 (output) 的函數。

(2)作用:一般直線擬合的精確度要比曲線差很多,引入激活嫌虧函數能給神經網路 增加一些非線性 的特性。

(3)性質:

① 非線性:導數不是常數,否則就退化成直線。對於一些畫一條直線仍然無法分開的問題,非線性可以把直線變彎,就能包羅萬象;

② 可微性:當優化方法是基於梯度的時候,處處可導為後向傳播演算法提供了核心芹歷神條件;

③ 輸出范圍:一般限定在[0,1],使得神經元對一些比較大的輸入會比較穩定;

④ 非飽和性:飽和就是指,當輸入比較大的時候輸出幾乎沒變化,會導致梯度消失;

⑤ 單調性:導數符號不變,輸出不會上躥下跳,讓神經網路訓練容易收斂。

(1)線性函數 (linear function)—— purelin()

(2)符號函數 (sign function)—— hardlim() 

① 如果z值高於閾值,則激活設置為1或yes,神經元將被激活。

② 如果z值低於閾值,則激活設置為0或no,神經元不會被激活。

(3)對率函數 (sigmoid function)—— logsig()

① 優點:光滑S型曲線連續可導,函數閾值有上限。

② 缺點:❶ 函數飽和使梯度消失,兩端梯度幾乎為0,更新困難,做不深;

                ❷ 輸出不是0中心,將影響梯度下降的運作,收斂異常慢;

                ❸ 冪運算相對來講比較耗時

(4)雙曲正切函數(hyperbolic tangent function)—— tansig()

① 優點:取值范圍0中心化,防止了梯度偏差

② 缺點:梯度消失現象依然存在,但相對於sigmoid函數問題較輕

(5)整流線性單元 ReLU 函數(rectified linear unit)

① 優點:❶ 分段線性函數,它的非線性性很弱,因此網路做得很深;

                ❷ 由於它的線性、非飽和性, 對於隨機梯度下降的收斂有巨大的加速作用;

② 缺點:❶ 當x<0,梯度都變成0,參數無法更新,也導致了數據多樣化的丟失;

                ❷ 輸出不是0中心

(6)滲漏型整流線性單元激活函數 Leaky ReLU 函數

① 優點:❶ 是為解決「ReLU死亡」問題的嘗試,在計算導數時允許較小的梯度;

                ❷ 非飽和的公式,不包含指數運算,計算速度快。

② 缺點:❶ 無法避免梯度爆炸問題; (沒有體現優於ReLU)

                ❷ 神經網路不學習 α 值。

(7)指數線性單元 ELU (Exponential Linear Units)

① 優點:❶ 能避免「死亡 ReLU」 問題;

                ❷ 能得到負值輸出,這能幫助網路向正確的方向推動權重和偏置變化;

                ❸ 在計算梯度時能得到激活,而不是讓它們等於 0。

② 缺點:❶ 由於包含指數運算,所以計算時間更長;

                ❷ 無法避免梯度爆炸問題; (沒有體現優於ReLU)

                ❸ 神經網路不學習 α 值。

(8)Maxout(對 ReLU 和 Leaky ReLU的一般化歸納)

① 優點:❶ 擁有ReLU的所有優點(線性和不飽和)

                ❷ 沒有ReLU的缺點(死亡的ReLU單元)

                ❸ 可以擬合任意凸函數

② 缺點 :參數數量增加了一倍。難訓練,容易過擬合

(9)Swish

① 優點:❶ 在負半軸也有一定的不飽和區,參數的利用率更大

                ❷ 無上界有下界、平滑、非單調

                ❸ 在深層模型上的效果優於 ReLU

每個層都包含一定數量的單元(units)。增加層可增加神經網路輸出的非線性。

(1)輸入層:就是接收原始數據,然後往隱層送

(2)輸出層:神經網路的決策輸出

(3)隱藏層:神經網路的關鍵。把前一層的向量變成新的向量,讓數據變得線性可分。

(1)結構:僅包含輸入層和輸出層,直接相連。

(2)作用:僅能表示 線性可分 函數或決策,且一定可以在有限的迭代次數中收斂。

(3)局限:可以建立與門、或門、非門等,但無法建立更為復雜的異或門(XOR),即兩個輸入相同時輸出1,否則輸出0。 (「AI winter」)

(1)目的:擬合某個函數      (兩層神經網路可以逼近任意連續函數)

(2)結構:包含輸入層、隱藏層和輸出層 ,由於從輸入到輸出的過程中不存在與模型自身的反饋連接,因此被稱為「前饋」。    (層與層之間全連接)

(3)作用: 非線性 分類、聚類、預測等,通過訓練,可以學習到數據中隱含的知識。

(4)局限:計算復雜、計算速度慢、容易陷入局部最優解,通常要將它們與其他網路結合形成新的網路。

(5)前向傳播演算法(Forward Propagation)

① 方法:從左至右逐級依賴的演算法模型,即網路如何根據輸入X得到輸出Y,最終的輸出值和樣本值作比較, 計算出誤差 。

② 目的:完成了一次正反向傳播,就完成了一次神經網路的訓練迭代。通過輸出層的誤差,快速求解對每個ω、b的偏導,利用梯度下降法,使Loss越來越小。

② 局限:為使最終的誤差達到最小,要不斷修改參數值,但神經網路的每條連接線上都有不同權重參數,修改這些參數變得棘手。

(6)誤差反向傳播(Back Propagation)

① 原理:梯度下降法求局部極值

② 方法:從後往前,從輸出層開始計算 L 對當前層的微分,獲得各層的誤差信號,此誤差信號即作為修正單元權值的依據。計算結束以後,所要的兩個參數矩陣的 梯度 就都有了。

③ 局限:如果激活函數是飽和的,帶來的缺陷就是系統迭代更新變慢,系統收斂就慢,當然這是可以有辦法彌補的,一種方法是使用 交叉熵函數 作為損失函數。

(1)原理:隨著網路的層數增加,每一層對於前一層次的抽象表示更深入。在神經網路中,每一層神經元學習到的是前一層神經元值的更抽象的表示。通過抽取更抽象的特徵來對事物進行區分,從而獲得更好的區分與分類能力。

(2)方法:ReLU函數在訓練多層神經網路時,更容易收斂,並且預測性能更好。

(3)優點:① 易於構建,表達能力強,基本單元便可擴展為復雜的非線性函數

                      ② 並行性號,有利於在分布是系統上應用

(4)局限:① 優化演算法只能獲得局部極值,性能與初始值相關

                      ② 調參理論性缺乏

                      ③ 不可解釋,與實際任務關聯性模糊

(1)原理:由手工設計卷積核變成自動學習卷積核

(2)卷積(Convolutional layer): 輸入與卷積核相乘再累加 (內積、加權疊加)

① 公式:

② 目的:提取輸入的不同特徵,得到維度很大的 特徵圖(feature map)

③ 卷積核:需要訓練的參數。一般為奇數維,有中心像素點,便於定位卷積核

④ 特點:局部感知、參數變少、權重共享、分層提取

(3)池化(Pooling Layer):用更高層的抽象表達來表示主要特徵,又稱「降采樣」

① 分類: 最大 (出現與否)、平均(保留整體)、隨機(避免過擬合)

② 目的:降維,不需要訓練參數,得到新的、維度較小的特徵

(4)步長(stride):若假設輸入大小是n∗n,卷積核的大小是f∗f,步長是s,則最後的feature map的大小為o∗o,其中

(5)填充(zero-padding)

① Full模式:即從卷積核(fileter)和輸入剛相交開始做卷積,沒有元素的部分做補0操作。

② Valid模式:卷積核和輸入完全相交開始做卷積,這種模式不需要補0。

③ Same模式:當卷積核的中心C和輸入開始相交時做卷積。沒有元素的部分做補0操作。

(7)激活函數:加入非線性特徵

(8)全連接層(Fully-connected layer)

如果說卷積層、池化層和激活函數層等是將原始數據映射到隱層特徵空間(決定計算速度),全連接層則起到將學到的「分布式特徵表示」映射到樣本標記空間的作用(決定參數個數)。

參考:

[1]  神經網路(入門最詳細)_ruthy的博客-CSDN博客_神經網路演算法入門

[2]  神經網路(容易被忽視的基礎知識) - Evan的文章 - 知乎

[3]  人工神經網路——王的機器

[4]  如何簡單形象又有趣地講解神經網路是什麼? - 舒小曼的回答 - 知乎

[5]  神經網路15分鍾入門!足夠通俗易懂了吧 - Mr.括弧的文章 - 知乎

[6]  神經網路——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神經網路

[7]  直覺化深度學習教程——什麼是前向傳播——CSDN

[8]  「反向傳播演算法」過程及公式推導(超直觀好懂的Backpropagation)_aift的專欄-CSDN

[9]  卷積、反卷積、池化、反池化——CSDN

[10]  浙大機器學習課程- bilibili.com

⑧ 大家評評理,這黑科技實現後該賣多少錢

對於不少小夥伴來說,科幻電影一定是此生必打卡的影片類型。像是去年大受好評的《流浪地球》,小到救援隊穿的機械外骨骼,大到行星推進器,可以說在中國電影史上羨唯還從未有過一部電影,體現出了如此深厚的科技崇拜。

其實,翻開固特異的歷史,它的壯舉還真是不少:世界上首款量產汽車福特T系列就是它提供的原配輪胎;創造了368次F1冠軍記錄,至今無人超越;更牛的是,創造陸路時速960公里世界紀錄的火箭車和人類首次登月的太空車也是裝備固特異的輪胎;再到近年來所發布的這些概念輪胎,這品牌還是真是「生命不息,折騰不止」!

總結

可能在很多人眼中,輪胎就是四個黑色的橡膠圈,很少有什麼創新或突破。但隨著無人駕駛和電動車的興起,輪胎不再只是橡膠產品,也能匯聚諸多先進科技,甚至腦洞大開。固特異已經向人們展示各種各樣的腦洞,雖然有的腦洞很大,不過要實現科幻電影的情節,還得靠這些腦洞和創新!在未來,輪胎也不僅是一款輪胎那麼簡單,而是智能駕駛生態鏈的重要一環,這只會思考的腳,已向我們大步走來!

本文來源於汽車之家車家號作者,不代表汽車之家的觀點立場。

⑨ 沒有gpu如何運行深度神經網路

沒有gpu用雲伺服器運行深度神經網路。深肢襪悉度學習可以理解為深度神經網路進行機械學習,這種情況必須得用GPU,還得好幾塊,同時還得搭歷乎配好缺容量更大的內存,如果沒有GPU,用雲伺服器跑深度學習也可以。

閱讀全文

與雲伺服器訓練神經網路多少錢相關的資料

熱點內容
單片機的系統組成 瀏覽:610
中國天河二號演算法 瀏覽:647
程序員是怎麼瘋的 瀏覽:598
程序員的貓有幾條命 瀏覽:832
安卓如何把圖片傳到電腦上 瀏覽:895
到去哪兒旅行app怎麼買票 瀏覽:444
工商銀行app房貸還款在哪裡看 瀏覽:761
最新民生通訊app從哪裡下載 瀏覽:378
如何在發簡訊時給自己手機號加密 瀏覽:773
擴展單片機ram定址方式是什麼 瀏覽:318
phpide是什麼 瀏覽:752
單片機相關軟體 瀏覽:818
eclipse如何編譯c11 瀏覽:286
加密游戲app 瀏覽:73
vs2010編譯嵌套太深 瀏覽:981
程序員面試注意事項 瀏覽:741
scratch編譯為h5 瀏覽:208
威聯通套件編譯 瀏覽:233
清刻pdf 瀏覽:984
可編程延時發生器 瀏覽:95