⑴ 大數據、雲計算、人工智慧之間有什麼樣的關系
雲計算最初的目標是對資源的管理,管理的主要是計算資源,網路資源,存儲資源三個方面。想像你有一大堆的伺服器,交換機,存儲設備,放在你的機房裡面,你最想做的事情就是把這些東西統一的管理起來,最好能達到當別人向你請求分配資源的時候(例如1核1G內存,10G硬碟,1M帶寬的機器),能夠達到想什麼時候要就能什麼時候要,想要多少就有多少的狀態。
這就是所謂的彈性,俗話說就是靈活性。靈活性分兩個方面,想什麼時候要就什麼時候要,這叫做時間靈活性,想要多少就要多少,這叫做空間靈活性。
這個神經元有輸入,有輸出,輸入和輸出之間通過一個公式來表示,輸入根據重要程度不同(權重),影響著輸出。
於是將n個神經元通過像一張神經網路一樣連接在一起,n這個數字可以很大很大,所有的神經元可以分成很多列,每一列很多個排列起來,每個神經元的對於輸入的權重可以都不相同,從而每個神經元的公式也不相同。當人們從這張網路中輸入一個東西的時候,希望輸出一個對人類來講正確的結果。例如上面的例子,輸入一個寫著2的圖片,輸出的列表裡面第二個數字最大,其實從機器來講,它既不知道輸入的這個圖片寫的是2,也不知道輸出的這一系列數字的意義,沒關系,人知道意義就可以了。正如對於神經元來說,他們既不知道視網膜看到的是美女,也不知道瞳孔放大是為了看的清楚,反正看到美女,瞳孔放大了,就可以了。
對於任何一張神經網路,誰也不敢保證輸入是2,輸出一定是第二個數字最大,要保證這個結果,需要訓練和學習。畢竟看到美女而瞳孔放大也是人類很多年進化的結果。學習的過程就是,輸入大量的圖片,如果結果不是想要的結果,則進行調整。如何調整呢,就是每個神經元的每個權重都向目標進行微調,由於神經元和權重實在是太多了,所以整張網路產生的結果很難表現出非此即彼的結果,而是向著結果微微的進步,最終能夠達到目標結果。當然這些調整的策略還是非常有技巧的,需要演算法的高手來仔細的調整。正如人類見到美女,瞳孔一開始沒有放大到能看清楚,於是美女跟別人跑了,下次學習的結果是瞳孔放大一點點,而不是放大鼻孔。
聽起來也沒有那麼有道理,但是的確能做到,就是這么任性。
神經網路的普遍性定理是這樣說的,假設某個人給你某種復雜奇特的函數,f(x):
不管這個函數是什麼樣的,總會確保有個神經網路能夠對任何可能的輸入x,其值f(x)(或者某個能夠准確的近似)是神經網路的輸出。
如果在函數代表著規律,也意味著這個規律無論多麼奇妙,多麼不能理解,都是能通過大量的神經元,通過大量權重的調整,表示出來的。
這讓我想到了經濟學,於是比較容易理解了。
我們把每個神經元當成社會中從事經濟活動的個體。於是神經網路相當於整個經濟社會,每個神經元對於社會的輸入,都有權重的調整,做出相應的輸出,比如工資漲了,菜價也漲了,股票跌了,我應該怎麼辦,怎麼花自己的錢。這裡面沒有規律么?肯定有,但是具體什麼規律呢?卻很難說清楚。
基於專家系統的經濟屬於計劃經濟,整個經濟規律的表示不希望通過每個經濟個體的獨立決策表現出來,而是希望通過專家的高屋建瓴和遠見卓識總結出來。專家永遠不可能知道哪個城市的哪個街道缺少一個賣甜豆腐腦的。於是專家說應該產多少鋼鐵,產多少饅頭,往往距離人民生活的真正需求有較大的差距,就算整個計劃書寫個幾百頁,也無法表達隱藏在人民生活中的小規律。
基於統計的宏觀調控就靠譜的多了,每年統計局都會統計整個社會的就業率,通脹率,GDP等等指標,這些指標往往代表著很多的內在規律,雖然不能夠精確表達,但是相對靠譜。然而基於統計的規律總結表達相對比較粗糙,比如經濟學家看到這些統計數據可以總結出長期來看房價是漲還是跌,股票長期來看是漲還是跌,如果經濟總體上揚,房價和股票應該都是漲的。但是基於統計數據,無法總結出股票,物價的微小波動規律。
基於神經網路的微觀經濟學才是對整個經濟規律最最准確的表達,每個人對於從社會中的輸入,進行各自的調整,並且調整同樣會作為輸入反饋到社會中。想像一下股市行情細微的波動曲線,正是每個獨立的個體各自不斷交易的結果,沒有統一的規律可循。而每個人根據整個社會的輸入進行獨立決策,當某些因素經過多次訓練,也會形成宏觀上的統計性的規律,這也就是宏觀經濟學所能看到的。例如每次貨幣大量發行,最後房價都會上漲,多次訓練後,人們也就都學會了。
然而神經網路包含這么多的節點,每個節點包含非常多的參數,整個參數量實在是太大了,需要的計算量實在太大,但是沒有關系啊,我們有大數據平台,可以匯聚多台機器的力量一起來計算,才能在有限的時間內得到想要的結果。
於是工智能程序作為SaaS平台進入了雲計算。
網易將人工智慧這個強大的技術,應用於反垃圾工作中,從網易1997年推出郵箱產品開始,我們的反垃圾技術就在不停的進化升級,並且成功應用到各個億量級用戶的產品線中,包括影音娛樂,游戲,社交,電商等產品線。比如網易新聞、博客相冊、雲音樂、雲閱讀、有道、BOBO、考拉、游戲等產品。總的來說,反垃圾技術在網易已經積累了19年的實踐經驗,一直在背後默默的為網易產品保駕護航。現在作為雲平台的SaaS服務開放出來。
回顧網易反垃圾技術發展歷程,大致上我們可以把他分為三個關鍵階段,也基本對應著人工智慧發展的三個時期:
第一階段主要是依賴關鍵詞,黑白名單和各種過濾器技術,來做一些內容的偵測和攔截,這也是最基礎的階段,受限於當時計算能力瓶頸以及演算法理論的發展,第一階段的技術也能勉強滿足使用。
第二個階段時,基於計算機行業里有一些更新的演算法,比如說貝葉斯過濾(基於概率論的演算法),一些膚色的識別,紋理的識別等等,這些比較優秀成熟的論文出來,我們可以基於這些演算法做更好的特徵匹配和技術改造,達到更優的反垃圾效果。
最後,隨著人工智慧演算法的進步和計算機運算能力的突飛猛進,反垃圾技術進化到第三個階段:大數據和人工智慧的階段。我們會用海量大數據做用戶的行為分析,對用戶做畫像,評估用戶是一個垃圾用戶還是一個正常用戶,增加用戶體驗更好的人機識別手段,以及對語義文本進行理解。還有基於人工智慧的圖像識別技術,更准確識別是否是色情圖片,廣告圖片以及一些違禁品圖片等等。