阿尔法狗再进化！通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级轨范_围棋_国际象棋

2024-12-24 23:13:53 计算机

继今年10月在《自然》杂志上揭橥论文正式推出人工智能围棋程序AlphaGo Zero后，Alphabet旗下机器学习子公司DeepMind团队近日又揭橥论文称，最新版本的 AlphaZero 在经由不到一天的演习后，“令人信服地”打败了国际象棋和日本将棋顶尖的打算机程序。

阿尔法狗再进化！通用棋类AI AlphaZero 8小时完胜象棋、将棋顶级轨范_围棋_国际象棋计算机

DeepMind称，AlphaGo Zero算法在围棋上实现了超人类的成绩，利用深度卷积神经网络，通过强化学习进行自我对弈演习。
此前的的Alpha Go须要与人类进行数千次对弈，从中获取数据，但AlphaGo Zero从零开始，只有空缺棋盘和游戏规则，达到了超人的性能，以100-0降服了曾打败李世乭的Alpha Go。

近日，该团队发文表示，在国际象棋和日本将棋上采取了AlphaGo Zero 的通用化版本AlphaZero(只输入游戏规则，没有输入任何特定领域的知识)。
研究显示，通用的强化学习算法，可以实现从零开始，在许多具有寻衅性的领域超越人类水平。

该团队在上述三种棋类游戏利用相同的算法设置、网络架构和超参数，为每一种棋类游戏演习了独立的 AlphaZero。
演习从随机初始化参数开始，进行了 70 万步(批尺寸为 4096)，利用 5000 个第一代 TPU 天生自我对弈棋局和 64 个第二代 TPU 演习神经网络。

结果显示，在国际象棋中，AlphaZero 仅仅用 4 小时(30 万步)就超过了 Stockfish。
在日本将棋中，不到 2 小时(11 万步)，AlphaZero 就超过了 Elmo；在围棋中，AlphaZero 用 8 小时(16.5 万步)超越 AlphaGo Lee((与李世乭对弈的版本)。

Stockfish是2016 年 Top Chess Engine Championship(TCEC)天下冠军。
Elmo是 Computer Shogi Association(CSA)天下冠军 Elmo。

人工智能领域的标志性事宜是 1997 年深蓝(Deep Blue)击败了人类天下冠军卡斯帕罗夫。
在之后的 20 年内，国际象棋的打算机程序水平一贯稳定处于人类之上。
Deepmind团队称，当前国际象棋最好的程序都是基于强大的搜索引擎，能搜索数百万个位置，利用人类专家手动编写的函数和繁芜的特定领域适应性。
Stockfish和深蓝这种强大的国际象棋程序也利用了类似的架构。

在打算繁芜性方面，日本将棋比国际象棋要更难。
将棋棋盘更大，任何被吃的棋子都可以改变态度，被放在棋盘的其他位置。
之前，最强的将棋程序，如天下冠军 Elmo 也是到 2017 年才打败人类天下冠军。
这些程序和打算机国际象棋程序采取了相似的算法，基于高度优化的α-β搜索引擎，并针对特定领域进行调度。

AlphaZero则完备不同，利用了一个通用的蒙特卡罗树搜索(MCTS)算法,通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树。
AlphaZero 是一个通用的强化学习算法——最初为围棋设计，在除了给定象棋规则之外没有任何领域知识的情形下，可以在几小时内达到更优的结果，少了几千倍的搜索量。
此外，该算法不须要修正就可以运用到更具寻衅性的日本将棋上，并再次在数小时内超过了当前最好的程序。

谷歌大脑GoogleBrain卖力人Jeff Dean也曾先容过深蓝和AlphaGo的差异。
他称，深蓝是通过蛮力搜索，知道接下来该怎么走。
但围棋比象棋繁芜，由于其繁芜性很难穷尽算法，“如果没有足够的打算能力去探索围棋的天下，那么你须要帮助程序认识游戏过程中的规律以及怎么样才能够像人一样有本能的去思考如何走棋。
”

不过，Deepmind团队最新公布的Alpha Zero又在AlphaGo Zero上进行了升级。
首先，AlphaGo Zero假设对弈的结果为胜/负两种，会估计并最优化胜利的概率;而 AlphaZero 则会估计和优化期望的结果，会同时考虑平局或其它可能的结果。

对付围棋而言，旋转棋盘和镜像映射都不会改变其规则。
AlphaGo 和 AlphaGo Zero 都利用了这一事实。
通过为每个位置天生8次对称，来增加演习数据。
但国际象棋和日本将棋是不对称的，因此AlphaZero不会增加演习数据，也不会在进行蒙特卡罗树搜索算法时转变棋盘位置。

此外，AlphaZero的自我对弈由之前所有迭代过程中最优玩家天生。
每次演习后，新玩家的性能与之前的最优玩家比拟，如果新玩家以55%的胜率胜出，便取代之前的最优玩家。
相反，AlphaZero 只是掩护单个神经网络连续更新最优解，而不是等待一次迭代的完成。

末了，AlphaGo Zero 通过贝叶斯优化(Bayesian optimisation)搜索超参数，而 Alpha Zero 对所有的对弈重复利用相同的超参数，无需进行针对特定某种游戏的调度。

DeepMind评估了经充分演习的AlphaZero 在国际象棋、将棋和围棋上分别和与Stockfish、Elmo 和经由 3 天演习的 AlphaGo Zero 进行的 100 场比赛结果，比赛韶光掌握在一步一分钟。
AlphaZero 和 AlphaGo Zero 利用 4 个 TPU 的单个机器进行比赛。
Stockfish 和 Elmo 利用 64 个线程和 1GB 的哈希表进行比赛。
AlphaZero “令人信服地”打败了所有的对手，没有输给 Stockfish 任何一场比赛，只输给了 Elmo 八场。

除了连续强化AlphaGo的技能，谷歌也正推广着围棋传授教化。

12月4日，谷歌宣告与聂卫平围棋道场共同发起“探求围棋小先锋”全国青少年围棋推广活动，该活动将包含针对全国4—18岁小棋手的全国青少年围棋公开赛，公开赛将在全国6个城市举行分站赛并于北京举行总决赛。
皮查伊和谷歌便是要在这些孩子当中创造最具潜力的“围棋先锋”，并用DeepMind发明的AlphaGo围棋传授教化方法培训他们。

谷歌 CEO 桑达尔·皮查伊透露，DeepMind将会基于AlphaGo发明一套围棋传授教化工具，很快可以免费***，让所有人学习AlphaGo如何下棋。
他还表示，这套围棋传授教化工具中的数据是从20多万场人类棋手比赛，以及75场AlphaGo和人类的对抗中积累的。