導航:首頁 > 源碼編譯 > 冷撲大師演算法

冷撲大師演算法

發布時間:2023-01-27 05:20:35

㈠ 人工智慧

人工智慧就是通過智能機器,延伸和增強人類在改造自然、治理社會的各項任務中的能力和效率,最終實現一個人與機器和諧共生共存的社會。智能機器可以是一個虛擬的或者物理的機器人(Agent,智能體),有自主的感知、認知、決策、學習、執行和社會協作能力,符合人類情感、倫理與道德觀念。圖為美國國防高級研究計劃局在2015年舉行的機器人挑戰賽,韓國科技大學隊獲得第一名。

人工智慧涵蓋很多大學科。可以歸納為六大領域:

1.計算機視覺(暫且把模式識別,圖像處理等問題歸入其中);

2.自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話);

3.認知與推理(包含各種物理和社會常識);

4.機器人學(機械、控制、設計、運動規劃、任務規劃等);

5.博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題);

6.機器學習(各種統計的建模、分析工具和計算的方法)。

阿西莫夫在1950年出版的科幻小說《我,機器人》中提出《機器人學的三大法則》:

第一定律:機器人不得傷害人類個體,或者目睹人類個體將遭受危險而袖手不管

第二定律:機器人必須服從人給予它的命令,當該命令與第一定律沖突時例外

第三定律:機器人在不違反第一、第二定律的情況下要盡可能保護自己的生存

時至今日,機器人三定律仍在影響人工智慧和機器人的設計思想,比如2017年提出的阿西洛馬人工智慧原則。

人工智慧的本質是人機關系。圖靈測試中有兩種角色:測試者和被測試者。被測試者可以是人也可以是機器,測試者只能是人。人可以測試機器,機器不能測試人,二者的關系是不對等的。例如,「貓臉識別」中的數據標注者、博弈游戲中的規則制定者是人,數據學習者、規則執行者是機器,這就是測試者與被測試者的關系的具體表現。機器可以取代人類作為被測試者的角色,但不能取代人類作為測試者的角色。

深藍、冷撲大師、阿爾法狗、谷歌大腦都是非常成功的AI,但它們的環境不同,目標不同,實現方法也不同。AI沒有一定之規,只要能結合具體環境,利用合適的組件實現目標,就是成功的AI。即便是大火的深度學習,也包含許多種神經網路、演算法、搭建方法和參數設置。要找到整個系統的關鍵點和薄弱環節,刪繁就簡,實現目標。

㈡ 春節在家不再無聊,這份2019 AI研究進展回顧陪伴你

2019 年可以說是「預訓練模型」流行起來的一年。自 BERT 引發潮流以來,相關方法的研究不僅獲得了 EMNLP 大會最佳論文等獎項,更是在 NLP、甚至圖像領域里引領了風潮。

去年也有很多 游戲 AI 取得了超越人類的水平。人工智慧不僅已經玩轉德州撲克、星際爭霸和 Dota2 這樣復雜的 游戲 ,還獲得了 Nature、Science 等頂級期刊的肯定。

機器之心整理了去年全年 在人工智慧、量子計算等領域里最為熱門的七項研究 。讓我們以時間的順序來看:

第一個重磅研究出現在 2 月,繼發布刷新 11 項 NLP 任務記錄的 3 億參數量語言模型 BERT 之後,谷歌 OpenAI 於 2019 年 2 月再次推出了一種更為強大的模型,而這次的模型參數量達到了 15 億。這是一種 大型無監督語言模型 ,能夠生產連貫的文本段落,在許多語言建模基準上取得了 SOTA 表現。此外,在沒有任務特定訓練的情況下,該模型能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要。

該模型名為 GPT-2,它是基於 Transformer 的大型語言模型,包含 15 億參數、在一個 800 萬網頁數據集上訓練而成。訓練 GPT-2 有一個簡單的目標:給定一個文本中前面的所有單詞,預測下一個單詞。GPT-2 是對 GPT 模型的直接擴展,在超出 10 倍的數據量上進行訓練,參數量也多出了 10 倍。

GPT-2 展示了一系列普適而強大的能力,包括生成當前最佳質量的條件合成文本,其中我們可以將輸入饋送到模型並生成非常長的連貫文本。此外,GPT-2 優於在特定領域(如維基網路、新聞或書籍)上訓練的其它語言模型,而且還不需要使用這些特定領域的訓練數據。在 知識問答、閱讀理解、自動摘要和翻譯等任務 上,GPT-2 可以從原始文本開始學習,無需特定任務的訓練數據。雖然目前這些下游任務還遠不能達到當前最優水平,但 GPT-2 表明如果有足夠的(未標注)數據和計算力,各種下游任務都可以從無監督技術中獲益。

最後,基於大型通用語言模型可能會產生巨大的 社會 影響,也考慮到模型可能會被用於惡意目的,在發布 GPT-2 時,OpenAI 採取了以下策略: 僅發布 GPT-2 的較小版本和示例代碼,不發布數據集、訓練代碼和 GPT-2 模型權重

機器學習頂會的最佳論文,總會引起人們的廣泛討論。在今年 6 月於美國加州舉辦的 ICML 2019(國際機器學習大會)上,由蘇黎世聯邦理工學院(ETH)、德國馬普所、谷歌大腦共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》獲得了其中一篇最佳論文。研究者在論文中提出了一個與此前學界普遍預測相反的觀點:對於任意數據,擁有相互獨立表徵(解耦表徵)的無監督學習是不可能的。

論文鏈接:https://arxiv.org/abs/1811.12359

在這篇論文中,研究者冷靜地審視了該領域的最新進展,並對一些常見的假設提出了質疑。

首先,研究者表示從理論上來看,如果不對模型和數據進行歸納偏置,無監督學習解耦表徵基本是不可能的;然後他們在七個不同數據集進行了可復現的大規模實驗,並訓練了 12000 多個模型,包括一些主流方法和評估指標;最後,實驗結果表明,雖然不同的方法強制執行了相應損失「鼓勵」的屬性,但如果沒有監督,似乎無法識別完全解耦的模型。此外,增加的解耦似乎不會導致下游任務學習的樣本復雜度的下降。

研究者認為,基於這些理論,機器學習從業者對於超參數的選擇是沒有經驗法則可循的,而在已有大量已訓練模型的情況下, 無監督的模型選擇仍然是一個很大的挑戰

去年 6 月,來自德國波恩-萊茵-錫格應用技術大學和谷歌大腦的研究者發表了一篇名為《Weight Agnostic Neural Networks》的論文,進而引爆了機器學習圈。在該論文中,他們提出了一種神經網路架構搜索方法, 這些網路可以在不進行顯式權重訓練的情況下執行各種任務

論文鏈接:https://arxiv.org/pdf/1906.04358.pdf

通常情況下,權重被認為會被訓練成 MNIST 中邊角、圓弧這類直觀特徵,而如果論文中的演算法可以處理 MNIST,那麼它們就不是特徵,而是函數序列/組合。對於 AI 可解釋性來說,這可能是一個打擊。很容易理解,神經網路架構並非「生而平等」,對於特定任務一些網路架構的性能顯著優於其他模型。但是相比架構而言,神經網路權重參數的重要性到底有多少?

來自德國波恩-萊茵-錫格應用技術大學和谷歌大腦的一項新研究提出了一種神經網路架構搜索方法,這些網路可以在不進行顯式權重訓練的情況下執行各種任務。

為了評估這些網路,研究者使用從統一隨機分布中采樣的單個共享權重參數來連接網路層,並評估期望性能。結果顯示,該方法可以找到少量神經網路架構,這些架構可以在沒有權重訓練的情況下執行多個強化學習任務,或 MNIST 等監督學習任務。

BERT 帶來的影響還未平復,CMU 與谷歌大腦 6 月份提出的 XLNet 在 20 個任務上超過了 BERT 的表現,並在 18 個任務上取得了當前最佳效果。

來自卡耐基梅隆大學與谷歌大腦的研究者提出新型預訓練語言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 個任務上全面超越 BERT。

作者表示, BERT 這樣基於去噪自編碼器的預訓練模型可以很好地建模雙向語境信息,性能優於基於自回歸語言模型的預訓練方法 。然而,由於需要 mask 一部分輸入,BERT 忽略了被 mask 位置之間的依賴關系,因此出現預訓練和微調效果的差異(pretrain-finetune discrepancy)。

基於這些優缺點,該研究提出了一種泛化的自回歸預訓練模型 XLNet。XLNet 可以:1)通過最大化所有可能的因式分解順序的對數似然,學習雙向語境信息;2)用自回歸本身的特點克服 BERT 的缺點。此外,XLNet 還融合了當前最優自回歸模型 Transformer-XL 的思路。

延伸閱讀:

2019 年 7 月,在無限制德州撲克六人對決的比賽中,德撲 AI Pluribus 成功戰勝了五名專家級人類玩家。Pluribus 由 Facebook 與卡耐基梅隆大學(CMU)共同開發,實現了前輩 Libratus(冷撲大師)未能完成的任務,該研究已經登上了當期《科學》雜志。

據介紹,Facebook 和卡內基梅隆大學設計的比賽分為兩種模式:1 個 AI+5 個人類玩家和 5 個 AI+1 個人類玩家,Pluribus 在這兩種模式中都取得了勝利。如果一個籌碼值 1 美元,Pluribus 平均每局能贏 5 美元,與 5 個人類玩家對戰一小時就能贏 1000 美元。職業撲克玩家認為這些結果是決定性的勝利優勢。 這是 AI 首次在玩家人數(或隊伍)大於 2 的大型基準 游戲 中擊敗頂級職業玩家

在論文中,Pluribus 整合了一種新的在線搜索演算法,可以通過搜索前面的幾步而不是只搜索到 游戲 結束來有效地評估其決策。此外,Pluribus 還利用了速度更快的新型 Self-Play 非完美信息 游戲 演算法。綜上所述,這些改進使得使用極少的處理能力和內存來訓練 Pluribus 成為可能。 訓練所用的雲計算資源總價值還不到 150 美元 。這種高效與最近其他人工智慧里程碑項目形成了鮮明對比,後者的訓練往往要花費數百萬美元的計算資源。

Pluribus 的自我博弈結果被稱為藍圖策略。在實際 游戲 中,Pluribus 使用搜索演算法提升這一藍圖策略。但是 Pluribus 不會根據從對手身上觀察到的傾向調整其策略。

在人工智慧之外的量子計算領域,去年也有重要的研究突破。2019 年 9 月,谷歌提交了一篇名為《Quantum supremacy using a programmable superconcting processor》的論文自 NASA 網站傳出,研究人員首次在實驗中證明了量子計算機對於傳統架構計算機的優越性:在世界第一超算 Summit 需要計算 1 萬年的實驗中,谷歌的量子計算機只用了 3 分 20 秒。因此,谷歌宣稱實現「量子優越性」。之後,該論文登上了《自然》雜志 150 周年版的封面。

這一成果源自科學家們不懈的努力。谷歌在量子計算方向上的研究已經過去了 13 年。2006 年,谷歌科學家 Hartmut Neven 就開始 探索 有關量子計算加速機器學習的方法。這項工作推動了 Google AI Quantum 團隊的成立。2014 年,John Martinis 和他在加利福尼亞大學聖巴巴拉分校(UCSB)的團隊加入了谷歌的工作,開始構建量子計算機。兩年後,Sergio Boixo 等人的論文發表,谷歌開始將工作重點放在實現量子計算優越性任務上。

如今,該團隊已經構建起世界上第一個超越傳統架構超級計算機能力的量子系統,可以進行特定任務的計算。

量子優越性實驗是在一個名為 Sycamore 的 54 量子比特的完全可編程處理器上運行的。該處理器包含一個二維網格,網格中的每個量子比特與其他四個相連。量子優越性實驗的成功歸功於谷歌改進了具有增強並行性的雙量子比特門,即使同時操作多個門,也能可靠地實現記錄性能。谷歌使用一種新型的控制旋鈕來實現這一性能,該旋鈕能夠關閉相鄰量子比特之間的交互。此舉大大減少了這種多連通量子比特系統中的誤差。此外,通過優化晶元設計來降低串擾,以及開發避免量子比特缺陷的新控制校準,谷歌進一步提升了性能。

雖然 AI 沒有打敗最強人類玩家 Serral,但其研究的論文仍然登上了 Nature。2019 年 10 月底,DeepMind 有關 AlphaStar 的論文發表在了當期《Nature》雜志上,這是人工智慧演算法 AlphaStar 的最新研究進展,展示了 AI 在「沒有任何 游戲 限制的情況下」已經達到星際爭霸Ⅱ人類對戰天梯的頂級水平,在 Battle.net 上的排名已超越 99.8%的活躍玩家

回顧 AlphaStar 的發展歷程,DeepMind 於 2017 年宣布開始研究能進行即時戰略 游戲 星際爭霸Ⅱ的人工智慧——AlphaStar。2018 年 12 月 10 日,AlphaStar 擊敗 DeepMind 公司里的最強玩家 Dani Yogatama;12 月 12 日,AlphaStar 已經可以 5:0 擊敗職業玩家 TLO 了(TLO 是蟲族玩家,據 游戲 解說們認為,其在 游戲 中的表現大概能有 5000 分水平);又過了一個星期,12 月 19 日,AlphaStar 同樣以 5:0 的比分擊敗了職業玩家 MaNa。至此,AlphaStar 又往前走了一步,達到了主流電子競技 游戲 頂級水準。

根據《Nature》論文描述,DeepMind 使用通用機器學習技術(包括神經網路、藉助於強化學習的自我博弈、多智能體學習和模仿學習)直接從 游戲 數據中學習。AlphaStar 的 游戲 方式令人印象深刻——這個系統非常擅長評估自身的戰略地位,並且准確地知道什麼時候接近對手、什麼時候遠離。此外,論文的中心思想是將 游戲 環境中虛構的自我博弈擴展到一組智能體,即「聯盟」。

聯盟這一概念的核心思想是:僅僅只是為了贏是不夠的。相反,實驗需要主要的智能體能夠打贏所有玩家,而「壓榨(exploiter)」智能體的主要目的是幫助核心智能體暴露問題,從而變得更加強大。這不需要這些智能體去提高它們的勝率。通過使用這樣的訓練方法,整個智能體聯盟在一個端到端的、完全自動化的體系中學到了星際爭霸Ⅱ中所有的復雜策略。

2019 年在 AI 領域的各個方向上都出現了很多技術突破。新的一年,我們期待更多進展。

此外,機器之心於 2019 年 9 月底推出了自己的新產品 SOTA 模型,讀者可以根據自己的需要尋找機器學習對應領域和任務下的 SOTA 論文,平台會提供論文、模型、數據集和 benchmark 的相關信息。

㈢ 那些「最年輕的副總裁」怎麼了

「最年輕的副總裁」今天看來似乎並不是一個好詞。

許朝軍25歲當上了人人網的副總裁,李一男27歲時成為華為史上最年輕的副總裁;當年29歲的李明遠是網路最年輕的副總裁。如今這三人一個在監獄,一個剛出來,一個差點進去。

無論是故作聰明,還是百密一疏,天之驕子跌落雲端,泯若眾人,總歸是令人唏噓。

這些「最年輕的副總裁」有什麼共性,他們中年為何多坎坷?

被德撲撲倒的人

說到德撲,很多名流都是它的擁躉。李開復曾在知乎上傳授過德撲的經驗技巧,指導玩家運用統計學知識贏牌。據說餓了么CEO張旭豪也喜歡用打德州撲克來面試候選人;被傳的更廣的則是汪峰和章子怡靠著德州撲克結緣的故事。

今年4月,卡耐基梅隆大學開發的德州撲克AI程序「冷撲大師」受李開復邀請,去了海南,迎戰「中國龍之隊」的6位德撲高手,其中一位就是人人網前負責人,社交App啪啪的創始人許朝軍。

正如李開復預言,龍之隊在AI面前毫無勝算。賽後接受采訪時,許朝軍說:人工智慧將會更好地幫助人類選手訓練、提高技術。

三個月後,許朝軍再度登上媒體頭條,原因竟是涉嫌通過德州撲克聚眾賭博,被北京市公安局逮捕。

7月29日,被剃了光頭的許朝軍上了CCTV,他在鏡頭面前交代了自己的違法案情:承認「指點」賭博,涉案金額達300餘萬元。

據報道,許朝軍出事不是因為打德撲,而是組織別人打德撲,他從中抽水賺錢,無意間碰到了紅線。

許朝軍一出事,媒體便把他和不久前哽咽敲鍾的王小川做對比。在清華大學讀書時,許朝軍的寢室就在王小川隔壁。

1999年,剛從斯坦福回來的陳一舟去清華招人,他要找計算機系最牛的三個人,找來找去,選中了周楓、王小川和許朝軍。

正在做ChinaRen的陳一舟請來了三人做兼職,據說一個月兼職的工資就有8000塊。那是18年前,8000塊的工資成就了王小川和許朝軍天天吃小炒的日子,也給清華計算機系老師留下了一個痛苦的夏天——有了這三個人做榜樣,全班至少一半的人都逃課去做兼職。

2000年,張朝陽的搜狐動用了它在納斯達克上市的400萬股票,以當時近3000萬美元的價格收購了ChinaRen,周楓、王小川和許朝軍三人也就都去了搜狐。但到了2002年,周楓決定回到清華繼續讀了碩士,此後又去美國讀碩博士,從搜狐出走,後來被丁磊招去做了有道。

2005年,許朝軍離開搜狐去了校內網,也就是後來的人人網。25歲當上副總裁,算下來他比27歲上任搜狐副總裁的王小川要風光一點。盡管後來的分手並不愉快,「前人人網負責人」的標簽還是烙在了他身上,曾帶來無限榮光。差不多同樣的時候,在千橡打工的王興,受Twitter啟發創業做了飯否。

和陳一舟分道揚鑣之後,許朝軍在盛大待了一年。期間,許朝軍認識了當時還叫「青年創業教父」的李開復,再難知道兩人究竟聊了什麼,但一頓烤鴨促使許朝軍離開熟悉的PC互聯網,轉戰移動社交平台,推出第一個項目點點網,並拿到了李開復百萬美元的投資。

2011年2月15日,許朝軍在微博上寫道:「成功是偶然,失敗是必然。但是自己要開始驚險一跳!」

期間,許朝軍還轉發過李開復評價德州撲克的微博,人們說德州撲克就是「牌桌上的高爾夫」,如果想打入PE/VC圈,就不能對它一無所知。後來點點網成立3個月便拿到聯創策源、紅杉和創新工場1000萬美元的A輪投資,在這些人脈和口碑背後,不知有多少德撲的功勞。

熟識許朝軍的人評價他很用功、也很努力,但總是少些運氣。

之後的幾年裡,許朝軍不斷的調整方向,五年五個產品,但沒有一個能火起來,「前人人網負責人」的title一年比一年顯得尷尬。相比之下,飯否被關閉,王興趕上了千團大戰,終成美團霸業。

如今,德撲幾乎已經成了創投圈的生活標配,「前人人網負責人」許朝軍也搖身一變成為北京國際撲克學校創始人兼校長許朝軍。坊間盛傳,他有豐富的德撲實戰經驗和理論體系,圈內稱「京城名鯊」。

許朝軍所組織的德撲,下注額在200、400或800元,他每局抽成5%。警方說,許朝軍開設賭局已有半個月時間,涉案金額達300餘萬元,也有人說金額遠不止這些。

有人總結許朝軍的職業履歷時認為,他從搜狐開始到人人網再到盛大,看起來好像很光鮮,但是之後他創業的時候,幾乎每一個前東家都在走下坡路,他這個人的性格里又有點自卑,抱不住BAT的大腿,也沒用好雷軍等湖北老鄉和清華校友的資源,一路全憑單打獨斗,創業失敗是註定的。最後只能去開個德撲培訓學校,跌入了人生低谷。

幾年間的種種原委,也許只能等某一天許朝軍自己講出來。但他又是出了名的惜墨如金,知乎上最後一條答案停留在對啪啪網的介紹。就像跳舞一樣,看似順風順水,倘若一個舞步錯了,接下來的趔趄也就不可避免。

歷史哪怕稍作點修改,站在張朝陽和馬化騰中間的,說不定也會另有其人。

李一男:被任正非關在玻璃房裡的接班人

許朝軍被關進去的時候,李一男差不多快要出來了。

12月2日,李一男的代理律師、廣東晟典律師事務所的陳美竹接到電話,那頭的李一男告訴他,自己出獄了。

今年11月,李明遠又作為一家IP孵化運營機構——貓片的執行董事公開亮相,但他說的,又是與地產和人工智慧相關的東西。

在貓片的新聞通稿里,李明遠被介紹為「以實習生身份加入網路,30歲進入網路最高決策層」,之後的事情,則隻字未提。

從高處跌落後,李明遠似乎在重復李一男的職業軌跡——頻繁跳槽,祝願他能找到適合自己的位置。

容易迷失自己。

㈣ 蒙特卡洛樹是什麼演算法

蒙特卡羅樹搜索(MCTS)會逐漸的建立一顆不對稱的樹。可以分為四步並反復迭代:

(1)選擇
從根節點,也就是要做決策的局面R出發向下選擇一個最急迫需要被拓展的節點T;局面R是第一個被檢查的節點,被檢查的節點如果存在一個沒有被評價過的招式m,那麼被檢查的節點在執行m後得到的新局面就是我們所需要展開的T;如果被檢查的局面所有可行的招式已經都被評價過了,那麼利用ucb公式得到一個擁有最大ucb值的可行招式,並且對這個招式產生的新局面再次進行檢查;如果被檢查的局面是一個游戲已經結束的游戲局面,那麼直接執行步驟4;通過反復的進行檢查,最終得到一個在樹的最底層的最後一次被檢查的局面c和它的一個沒有被評價過的招式m,執行步驟2。

(2)拓展
對於此時存在於內存中的局面c,添加一個它的子節點。這個子節點由局面c執行招式m而得到,也就是T。

(3)模擬
從局面T出發,雙方開始隨機的落子。最終得到一個結果(win/lost),以此更新T節點的勝利率。

(4)反向傳播
在T模擬結束之後,它的父節點c以及其所有的祖先節點依次更新勝利率。一個節點的勝利率為這個節點所有的子節點的平均勝利率。並從T開始,一直反向傳播到根節點R,因此路徑上所有的節點的勝利率都會被更新。

閱讀全文

與冷撲大師演算法相關的資料

熱點內容
沒學歷的怎麼學編程 瀏覽:893
華為的隱藏相冊無法加密 瀏覽:774
聯通套餐app怎麼設置 瀏覽:748
關於刪除鏈表的演算法描述 瀏覽:889
標准盤和壓縮盤的區別 瀏覽:42
銀行存款驗證碼JAVA編程 瀏覽:106
word轉pdf軟體免費版 瀏覽:137
公主連結安卓台服怎麼下載 瀏覽:540
注冊江蘇銀行app怎麼注冊 瀏覽:796
中興怎麼下載app視頻 瀏覽:673
伺服器審計是什麼 瀏覽:514
華為刪除的app怎麼徹底卸載 瀏覽:570
編程時調試快捷鍵 瀏覽:6
安卓手機玩亞服怎麼下載 瀏覽:337
思域壓縮機多少錢 瀏覽:693
程序員代碼合適嗎 瀏覽:288
復利計演算法律保護 瀏覽:741
代號f2伺服器連接失敗怎麼搞 瀏覽:960
旋律雲我的世界伺服器靠譜嗎 瀏覽:67
pdf降低大小 瀏覽:235