导航:首页 > 源码编译 > 冷扑大师算法

冷扑大师算法

发布时间:2023-01-27 05:20:35

㈠ 人工智能

人工智能就是通过智能机器,延伸和增强人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会。智能机器可以是一个虚拟的或者物理的机器人(Agent,智能体),有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念。图为美国国防高级研究计划局在2015年举行的机器人挑战赛,韩国科技大学队获得第一名。

人工智能涵盖很多大学科。可以归纳为六大领域:

1.计算机视觉(暂且把模式识别,图像处理等问题归入其中);

2.自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话);

3.认知与推理(包含各种物理和社会常识);

4.机器人学(机械、控制、设计、运动规划、任务规划等);

5.博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题);

6.机器学习(各种统计的建模、分析工具和计算的方法)。

阿西莫夫在1950年出版的科幻小说《我,机器人》中提出《机器人学的三大法则》:

第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管

第二定律:机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外

第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存

时至今日,机器人三定律仍在影响人工智能和机器人的设计思想,比如2017年提出的阿西洛马人工智能原则。

人工智能的本质是人机关系。图灵测试中有两种角色:测试者和被测试者。被测试者可以是人也可以是机器,测试者只能是人。人可以测试机器,机器不能测试人,二者的关系是不对等的。例如,“猫脸识别”中的数据标注者、博弈游戏中的规则制定者是人,数据学习者、规则执行者是机器,这就是测试者与被测试者的关系的具体表现。机器可以取代人类作为被测试者的角色,但不能取代人类作为测试者的角色。

深蓝、冷扑大师、阿尔法狗、谷歌大脑都是非常成功的AI,但它们的环境不同,目标不同,实现方法也不同。AI没有一定之规,只要能结合具体环境,利用合适的组件实现目标,就是成功的AI。即便是大火的深度学习,也包含许多种神经网络、算法、搭建方法和参数设置。要找到整个系统的关键点和薄弱环节,删繁就简,实现目标。

㈡ 春节在家不再无聊,这份2019 AI研究进展回顾陪伴你

2019 年可以说是“预训练模型”流行起来的一年。自 BERT 引发潮流以来,相关方法的研究不仅获得了 EMNLP 大会最佳论文等奖项,更是在 NLP、甚至图像领域里引领了风潮。

去年也有很多 游戏 AI 取得了超越人类的水平。人工智能不仅已经玩转德州扑克、星际争霸和 Dota2 这样复杂的 游戏 ,还获得了 Nature、Science 等顶级期刊的肯定。

机器之心整理了去年全年 在人工智能、量子计算等领域里最为热门的七项研究 。让我们以时间的顺序来看:

第一个重磅研究出现在 2 月,继发布刷新 11 项 NLP 任务记录的 3 亿参数量语言模型 BERT 之后,谷歌 OpenAI 于 2019 年 2 月再次推出了一种更为强大的模型,而这次的模型参数量达到了 15 亿。这是一种 大型无监督语言模型 ,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。此外,在没有任务特定训练的情况下,该模型能够做到初步的阅读理解、机器翻译、问答和自动摘要。

该模型名为 GPT-2,它是基于 Transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标:给定一个文本中前面的所有单词,预测下一个单词。GPT-2 是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。

GPT-2 展示了一系列普适而强大的能力,包括生成当前最佳质量的条件合成文本,其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外,GPT-2 优于在特定领域(如维基网络、新闻或书籍)上训练的其它语言模型,而且还不需要使用这些特定领域的训练数据。在 知识问答、阅读理解、自动摘要和翻译等任务 上,GPT-2 可以从原始文本开始学习,无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前最优水平,但 GPT-2 表明如果有足够的(未标注)数据和计算力,各种下游任务都可以从无监督技术中获益。

最后,基于大型通用语言模型可能会产生巨大的 社会 影响,也考虑到模型可能会被用于恶意目的,在发布 GPT-2 时,OpenAI 采取了以下策略: 仅发布 GPT-2 的较小版本和示例代码,不发布数据集、训练代码和 GPT-2 模型权重

机器学习顶会的最佳论文,总会引起人们的广泛讨论。在今年 6 月于美国加州举办的 ICML 2019(国际机器学习大会)上,由苏黎世联邦理工学院(ETH)、德国马普所、谷歌大脑共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》获得了其中一篇最佳论文。研究者在论文中提出了一个与此前学界普遍预测相反的观点:对于任意数据,拥有相互独立表征(解耦表征)的无监督学习是不可能的。

论文链接:https://arxiv.org/abs/1811.12359

在这篇论文中,研究者冷静地审视了该领域的最新进展,并对一些常见的假设提出了质疑。

首先,研究者表示从理论上来看,如果不对模型和数据进行归纳偏置,无监督学习解耦表征基本是不可能的;然后他们在七个不同数据集进行了可复现的大规模实验,并训练了 12000 多个模型,包括一些主流方法和评估指标;最后,实验结果表明,虽然不同的方法强制执行了相应损失“鼓励”的属性,但如果没有监督,似乎无法识别完全解耦的模型。此外,增加的解耦似乎不会导致下游任务学习的样本复杂度的下降。

研究者认为,基于这些理论,机器学习从业者对于超参数的选择是没有经验法则可循的,而在已有大量已训练模型的情况下, 无监督的模型选择仍然是一个很大的挑战

去年 6 月,来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的研究者发表了一篇名为《Weight Agnostic Neural Networks》的论文,进而引爆了机器学习圈。在该论文中,他们提出了一种神经网络架构搜索方法, 这些网络可以在不进行显式权重训练的情况下执行各种任务

论文链接:https://arxiv.org/pdf/1906.04358.pdf

通常情况下,权重被认为会被训练成 MNIST 中边角、圆弧这类直观特征,而如果论文中的算法可以处理 MNIST,那么它们就不是特征,而是函数序列/组合。对于 AI 可解释性来说,这可能是一个打击。很容易理解,神经网络架构并非“生而平等”,对于特定任务一些网络架构的性能显着优于其他模型。但是相比架构而言,神经网络权重参数的重要性到底有多少?

来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的一项新研究提出了一种神经网络架构搜索方法,这些网络可以在不进行显式权重训练的情况下执行各种任务。

为了评估这些网络,研究者使用从统一随机分布中采样的单个共享权重参数来连接网络层,并评估期望性能。结果显示,该方法可以找到少量神经网络架构,这些架构可以在没有权重训练的情况下执行多个强化学习任务,或 MNIST 等监督学习任务。

BERT 带来的影响还未平复,CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果。

来自卡耐基梅隆大学与谷歌大脑的研究者提出新型预训练语言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

作者表示, BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法 。然而,由于需要 mask 一部分输入,BERT 忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy)。

基于这些优缺点,该研究提出了一种泛化的自回归预训练模型 XLNet。XLNet 可以:1)通过最大化所有可能的因式分解顺序的对数似然,学习双向语境信息;2)用自回归本身的特点克服 BERT 的缺点。此外,XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路。

延伸阅读:

2019 年 7 月,在无限制德州扑克六人对决的比赛中,德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与卡耐基梅隆大学(CMU)共同开发,实现了前辈 Libratus(冷扑大师)未能完成的任务,该研究已经登上了当期《科学》杂志。

据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。 这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准 游戏 中击败顶级职业玩家

在论文中,Pluribus 整合了一种新的在线搜索算法,可以通过搜索前面的几步而不是只搜索到 游戏 结束来有效地评估其决策。此外,Pluribus 还利用了速度更快的新型 Self-Play 非完美信息 游戏 算法。综上所述,这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。 训练所用的云计算资源总价值还不到 150 美元 。这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。

Pluribus 的自我博弈结果被称为蓝图策略。在实际 游戏 中,Pluribus 使用搜索算法提升这一蓝图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略。

在人工智能之外的量子计算领域,去年也有重要的研究突破。2019 年 9 月,谷歌提交了一篇名为《Quantum supremacy using a programmable superconcting processor》的论文自 NASA 网站传出,研究人员首次在实验中证明了量子计算机对于传统架构计算机的优越性:在世界第一超算 Summit 需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。因此,谷歌宣称实现“量子优越性”。之后,该论文登上了《自然》杂志 150 周年版的封面。

这一成果源自科学家们不懈的努力。谷歌在量子计算方向上的研究已经过去了 13 年。2006 年,谷歌科学家 Hartmut Neven 就开始 探索 有关量子计算加速机器学习的方法。这项工作推动了 Google AI Quantum 团队的成立。2014 年,John Martinis 和他在加利福尼亚大学圣巴巴拉分校(UCSB)的团队加入了谷歌的工作,开始构建量子计算机。两年后,Sergio Boixo 等人的论文发表,谷歌开始将工作重点放在实现量子计算优越性任务上。

如今,该团队已经构建起世界上第一个超越传统架构超级计算机能力的量子系统,可以进行特定任务的计算。

量子优越性实验是在一个名为 Sycamore 的 54 量子比特的完全可编程处理器上运行的。该处理器包含一个二维网格,网格中的每个量子比特与其他四个相连。量子优越性实验的成功归功于谷歌改进了具有增强并行性的双量子比特门,即使同时操作多个门,也能可靠地实现记录性能。谷歌使用一种新型的控制旋钮来实现这一性能,该旋钮能够关闭相邻量子比特之间的交互。此举大大减少了这种多连通量子比特系统中的误差。此外,通过优化芯片设计来降低串扰,以及开发避免量子比特缺陷的新控制校准,谷歌进一步提升了性能。

虽然 AI 没有打败最强人类玩家 Serral,但其研究的论文仍然登上了 Nature。2019 年 10 月底,DeepMind 有关 AlphaStar 的论文发表在了当期《Nature》杂志上,这是人工智能算法 AlphaStar 的最新研究进展,展示了 AI 在“没有任何 游戏 限制的情况下”已经达到星际争霸Ⅱ人类对战天梯的顶级水平,在 Battle.net 上的排名已超越 99.8%的活跃玩家

回顾 AlphaStar 的发展历程,DeepMind 于 2017 年宣布开始研究能进行即时战略 游戏 星际争霸Ⅱ的人工智能——AlphaStar。2018 年 12 月 10 日,AlphaStar 击败 DeepMind 公司里的最强玩家 Dani Yogatama;12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(TLO 是虫族玩家,据 游戏 解说们认为,其在 游戏 中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。至此,AlphaStar 又往前走了一步,达到了主流电子竞技 游戏 顶级水准。

根据《Nature》论文描述,DeepMind 使用通用机器学习技术(包括神经网络、借助于强化学习的自我博弈、多智能体学习和模仿学习)直接从 游戏 数据中学习。AlphaStar 的 游戏 方式令人印象深刻——这个系统非常擅长评估自身的战略地位,并且准确地知道什么时候接近对手、什么时候远离。此外,论文的中心思想是将 游戏 环境中虚构的自我博弈扩展到一组智能体,即“联盟”。

联盟这一概念的核心思想是:仅仅只是为了赢是不够的。相反,实验需要主要的智能体能够打赢所有玩家,而“压榨(exploiter)”智能体的主要目的是帮助核心智能体暴露问题,从而变得更加强大。这不需要这些智能体去提高它们的胜率。通过使用这样的训练方法,整个智能体联盟在一个端到端的、完全自动化的体系中学到了星际争霸Ⅱ中所有的复杂策略。

2019 年在 AI 领域的各个方向上都出现了很多技术突破。新的一年,我们期待更多进展。

此外,机器之心于 2019 年 9 月底推出了自己的新产品 SOTA 模型,读者可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文,平台会提供论文、模型、数据集和 benchmark 的相关信息。

㈢ 那些“最年轻的副总裁”怎么了

“最年轻的副总裁”今天看来似乎并不是一个好词。

许朝军25岁当上了人人网的副总裁,李一男27岁时成为华为史上最年轻的副总裁;当年29岁的李明远是网络最年轻的副总裁。如今这三人一个在监狱,一个刚出来,一个差点进去。

无论是故作聪明,还是百密一疏,天之骄子跌落云端,泯若众人,总归是令人唏嘘。

这些“最年轻的副总裁”有什么共性,他们中年为何多坎坷?

被德扑扑倒的人

说到德扑,很多名流都是它的拥趸。李开复曾在知乎上传授过德扑的经验技巧,指导玩家运用统计学知识赢牌。据说饿了么CEO张旭豪也喜欢用打德州扑克来面试候选人;被传的更广的则是汪峰和章子怡靠着德州扑克结缘的故事。

今年4月,卡耐基梅隆大学开发的德州扑克AI程序“冷扑大师”受李开复邀请,去了海南,迎战“中国龙之队”的6位德扑高手,其中一位就是人人网前负责人,社交App啪啪的创始人许朝军。

正如李开复预言,龙之队在AI面前毫无胜算。赛后接受采访时,许朝军说:人工智能将会更好地帮助人类选手训练、提高技术。

三个月后,许朝军再度登上媒体头条,原因竟是涉嫌通过德州扑克聚众赌博,被北京市公安局逮捕。

7月29日,被剃了光头的许朝军上了CCTV,他在镜头面前交代了自己的违法案情:承认“指点”赌博,涉案金额达300余万元。

据报道,许朝军出事不是因为打德扑,而是组织别人打德扑,他从中抽水赚钱,无意间碰到了红线。

许朝军一出事,媒体便把他和不久前哽咽敲钟的王小川做对比。在清华大学读书时,许朝军的寝室就在王小川隔壁。

1999年,刚从斯坦福回来的陈一舟去清华招人,他要找计算机系最牛的三个人,找来找去,选中了周枫、王小川和许朝军。

正在做ChinaRen的陈一舟请来了三人做兼职,据说一个月兼职的工资就有8000块。那是18年前,8000块的工资成就了王小川和许朝军天天吃小炒的日子,也给清华计算机系老师留下了一个痛苦的夏天——有了这三个人做榜样,全班至少一半的人都逃课去做兼职。

2000年,张朝阳的搜狐动用了它在纳斯达克上市的400万股票,以当时近3000万美元的价格收购了ChinaRen,周枫、王小川和许朝军三人也就都去了搜狐。但到了2002年,周枫决定回到清华继续读了硕士,此后又去美国读硕博士,从搜狐出走,后来被丁磊招去做了有道。

2005年,许朝军离开搜狐去了校内网,也就是后来的人人网。25岁当上副总裁,算下来他比27岁上任搜狐副总裁的王小川要风光一点。尽管后来的分手并不愉快,“前人人网负责人”的标签还是烙在了他身上,曾带来无限荣光。差不多同样的时候,在千橡打工的王兴,受Twitter启发创业做了饭否。

和陈一舟分道扬镳之后,许朝军在盛大待了一年。期间,许朝军认识了当时还叫“青年创业教父”的李开复,再难知道两人究竟聊了什么,但一顿烤鸭促使许朝军离开熟悉的PC互联网,转战移动社交平台,推出第一个项目点点网,并拿到了李开复百万美元的投资。

2011年2月15日,许朝军在微博上写道:“成功是偶然,失败是必然。但是自己要开始惊险一跳!”

期间,许朝军还转发过李开复评价德州扑克的微博,人们说德州扑克就是“牌桌上的高尔夫”,如果想打入PE/VC圈,就不能对它一无所知。后来点点网成立3个月便拿到联创策源、红杉和创新工场1000万美元的A轮投资,在这些人脉和口碑背后,不知有多少德扑的功劳。

熟识许朝军的人评价他很用功、也很努力,但总是少些运气。

之后的几年里,许朝军不断的调整方向,五年五个产品,但没有一个能火起来,“前人人网负责人”的title一年比一年显得尴尬。相比之下,饭否被关闭,王兴赶上了千团大战,终成美团霸业。

如今,德扑几乎已经成了创投圈的生活标配,“前人人网负责人”许朝军也摇身一变成为北京国际扑克学校创始人兼校长许朝军。坊间盛传,他有丰富的德扑实战经验和理论体系,圈内称“京城名鲨”。

许朝军所组织的德扑,下注额在200、400或800元,他每局抽成5%。警方说,许朝军开设赌局已有半个月时间,涉案金额达300余万元,也有人说金额远不止这些。

有人总结许朝军的职业履历时认为,他从搜狐开始到人人网再到盛大,看起来好像很光鲜,但是之后他创业的时候,几乎每一个前东家都在走下坡路,他这个人的性格里又有点自卑,抱不住BAT的大腿,也没用好雷军等湖北老乡和清华校友的资源,一路全凭单打独斗,创业失败是注定的。最后只能去开个德扑培训学校,跌入了人生低谷。

几年间的种种原委,也许只能等某一天许朝军自己讲出来。但他又是出了名的惜墨如金,知乎上最后一条答案停留在对啪啪网的介绍。就像跳舞一样,看似顺风顺水,倘若一个舞步错了,接下来的趔趄也就不可避免。

历史哪怕稍作点修改,站在张朝阳和马化腾中间的,说不定也会另有其人。

李一男:被任正非关在玻璃房里的接班人

许朝军被关进去的时候,李一男差不多快要出来了。

12月2日,李一男的代理律师、广东晟典律师事务所的陈美竹接到电话,那头的李一男告诉他,自己出狱了。

今年11月,李明远又作为一家IP孵化运营机构——猫片的执行董事公开亮相,但他说的,又是与地产和人工智能相关的东西。

在猫片的新闻通稿里,李明远被介绍为“以实习生身份加入网络,30岁进入网络最高决策层”,之后的事情,则只字未提。

从高处跌落后,李明远似乎在重复李一男的职业轨迹——频繁跳槽,祝愿他能找到适合自己的位置。

容易迷失自己。

㈣ 蒙特卡洛树是什么算法

蒙特卡罗树搜索(MCTS)会逐渐的建立一颗不对称的树。可以分为四步并反复迭代:

(1)选择
从根节点,也就是要做决策的局面R出发向下选择一个最急迫需要被拓展的节点T;局面R是第一个被检查的节点,被检查的节点如果存在一个没有被评价过的招式m,那么被检查的节点在执行m后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的招式已经都被评价过了,那么利用ucb公式得到一个拥有最大ucb值的可行招式,并且对这个招式产生的新局面再次进行检查;如果被检查的局面是一个游戏已经结束的游戏局面,那么直接执行步骤4;通过反复的进行检查,最终得到一个在树的最底层的最后一次被检查的局面c和它的一个没有被评价过的招式m,执行步骤2。

(2)拓展
对于此时存在于内存中的局面c,添加一个它的子节点。这个子节点由局面c执行招式m而得到,也就是T。

(3)模拟
从局面T出发,双方开始随机的落子。最终得到一个结果(win/lost),以此更新T节点的胜利率。

(4)反向传播
在T模拟结束之后,它的父节点c以及其所有的祖先节点依次更新胜利率。一个节点的胜利率为这个节点所有的子节点的平均胜利率。并从T开始,一直反向传播到根节点R,因此路径上所有的节点的胜利率都会被更新。

阅读全文

与冷扑大师算法相关的资料

热点内容
华为怎么设置app时间锁 浏览:660
后宫app视频怎么下载 浏览:525
如何把图片转换从PDF格式 浏览:259
重写和重载的区别java 浏览:233
expressvpnandroid 浏览:84
储存卡被加密怎么解除 浏览:169
地球怎么压缩直径 浏览:780
金铲铲之战服务器爆满怎么进 浏览:160
同仁堂pdf 浏览:935
如何编译原理课程教材 浏览:730
单片机控制显示器 浏览:776
顶好花app下载怎么找不到 浏览:989
手机命令大全 浏览:808
怎么下邮政银行app 浏览:250
不背单词app单词怎么学习 浏览:481
程序员日常操作搞笑 浏览:382
android检查是否安装 浏览:375
苹果手机编辑pdf文件 浏览:460
android系统名字 浏览:971
安卓手机如何进去有求必应屋 浏览:434