编译 | ZeR0

DeepMind打造AI游戏王!寻衅各类最强棋牌AI战斗力惊人_游戏_算法 绘影字幕

编辑 | 漠影

智东西12月9日,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红环球。
本周,它又表露新的游戏AI系统。

与此前开拓的游戏系统不同,DeepMind的AI新作Player of Games是第一个在完备信息游戏以及不完备信息游戏中都能实现强大性能的AI算法。
完备信息游戏如中国围棋、象棋等棋盘游戏,不完备信息游戏如扑克等。

这是向能够在任意环境中学习的真正通用AI算法迈出的主要一步。

Player of Game在象棋、围棋这两种完备信息游戏和德州扑克、苏格兰场这两种不完备信息游戏中与顶尖AI智能体对战。

从实验结果来看,DeepMind称Player of Games在完备信息游戏中的表现已经达到了“人类顶级业余选手”水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。

在两类不完备信息游戏中,Player of Games均击败了最前辈的AI智能体。

论文链接:https://arxiv.org/pdf/2112.03178.pdf

一、深蓝、AlphaGo等AI系统仅善于玩一种游戏

打算机程序寻衅人类游戏选手由来已久。

20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开拓了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启示,并遍及了“机器学习”这个术语。

此后游戏AI系统一起发展。
1992年,IBM开拓的TD-Gammon通过自对弈在泰西双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中降服当时的天下棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败天下围棋冠军李世石……

IBM深蓝系统vs天下棋王卡斯帕罗夫

这些AI系统有一个共同之处,都是专注于一款游戏。
比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。

随后,AlphaGo的继任者AlphaZero做到了举一反三。
它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以节制三种不同的完备信息游戏。
不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完备信息游戏。

实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来担保个人信息的有效隐蔽。
其他许多大型游戏AI的演习都受到了博弈论推理和搜索的启示,包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。

2019年1月,AlphaStar对战星际争霸II职业选手

这里的每个进展仍旧是基于一款游戏,并利用了一些特定领域的知识和构造来实现强大的性能。

DeepMind研发的AlphaZero等系统善于国际象棋等完备信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完备信息游戏中表现出色。

对此,DeepMind研发了一种新的算法Player of Games(PoG),它利用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能。

二、更通用的算法PoG:棋盘、扑克游戏都善于

无论是办理交通拥堵问题的道路方案,还是条约会谈、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。
AI系统可能通过折衷、互助和群体或组织之间的互动而获益。
像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功互助。

要玩好完备的信息游戏,须要相称多的预见性和操持。
玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现终极的胜利目标。
不完备信息游戏则哀求玩家考虑隐蔽的信息,并思考下一步该当如何行动才能得胜,包括可能的矫揉造作或组队对抗对手。

DeepMind称,Player of Games是首个“通用且健全的搜索算法”,在完备和不完备的信息游戏中都实现了强大的性能。

Player of Games(PoG)紧张由两部分组成:1)一种新的成长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来演习代价-策略网络的合理自对弈。

Player of Games演习过程:Actor通过自对弈网络数据,Trainer在分布式网络上单独运行

在完备信息游戏中,AlphaZero比Player of Games更强大,但在不完备的信息游戏中,AlphaZero就没那么游刃有余了。

Player of Games有很强通用性,不过不是什么游戏都能玩。
参与研究的DeepMind高等研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。

虽然在完备信息游戏中只有一个视角,但在不完备信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。

此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也须要理解游戏规则,而MuZero无需被奉告规则即可飞速节制完备信息游戏的规则。

在其研究中,DeepMind评估了Player of Games利用谷歌TPUv4加速芯片组进行演习,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。

苏格兰场的抽象图,Player of Games能够持续得胜

在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。
在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。

不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛

在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。

只管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了“人类顶级业余选手”的水平,乃至可能达到了专业水平。

Player of Games在德州扑克比赛中与公开可用的Slumbot对战。
该算法还与Joseph Antonius Maria Nijssen开拓的PimBot进行了苏格兰场的比赛。

不同智能体在德州扑克、苏格兰场游戏中的比赛结果

结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。
与Slumbot对战时,该算法均匀每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的均匀数量。

同时在苏格兰场,DeepMind称,只管PimBot有更多机会搜索得胜的招数,但Player of Games还是“显著”击败了它。

三、研究关键寻衅:演习本钱太高

施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。

实验的总体趋势是,随着打算资源增加,Player of Games算法以担保产生更好的最小化-最优策略的逼近,施密德估量这种方法在可预见的未来将扩大规模。

“人们会认为,受益于AlphaZero的运用程序可能也会受益于游戏玩家。
”他谈道,“让这些算法更加通用是一项令人愉快的研究。

当然,方向于大量打算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。
在措辞领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其常日须要数百万美元的资源需求,这远超大多数研究小组的预算。

即便是在DeepMind这样财力雄厚的公司,本钱有时也会超过人们所能接管的水平。

对付AlphaStar,公司的研究职员故意没有考试测验多种构建关键组件的方法,由于高管们认为演习本钱太高。
根据DeepMind表露的古迹文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿公民币),得到4380万英镑(折合约3.67亿公民币)的利润。
从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿公民币)。

据估计,AlphaZero的演习本钱高达数千万美元。
DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的演习步骤从数十万到数百万不等,这个预算不太可能低。

结语:游戏AI正助力打破认知及推理寻衅

目前游戏AI还缺少明显的商业运用,而DeepMind的一向理念是借其去探索打破认知和推理能力所面临的独特寻衅。
近几十年来,游戏催生了自主学习的AI,这为打算机视觉、自动驾驶汽车和自然措辞处理供应了动力。

随着研究从游戏转向其他更商业化的领域,如运用推举、数据中央冷却优化、景象预报、材料建模、数学、医疗保健和原子能打算等等,游戏AI研究对搜索、学习和博弈推理的代价愈发凸显。

“一个有趣的问题是,这种水平的游戏是否可以用较少的打算资源实现。
”这个在Player of Games论文末了中被提及的问题,还没有明确的答案。

来源:VentureBeat,arVix