通用版 AlphaGo 登《Nature》:最强 AI 棋手,不懂规则也能精通游戏
继 AlphaGo 扬名海外后,DeepMind 再推新模型 MuZero,该模型可以在不知道游戏规则的情况下,自学围棋、国际象棋、日本将棋和 Atari 游戏并制定最佳获胜策略,论文 12 月 24 日发表至《Nature》。
论文链接:
https://arxiv.org/pdf/1911.08265.pdf
自 2016 年,令柯洁流泪、让李世石沉默的 AlphaGo 横空出世,打遍棋坛无人能敌后,AI 棋手的名号就此一炮打响,而其背后的发明家 DeepMind 却没有因此止步,四年之内迭代了四代 AI 棋手,次次都有新突破。
始祖 AlphaGo 基于人类棋手的训练数据和游戏规则,采用了神经网络和树状搜索方法,成为了第一个精通围棋的 AI 棋手。
二代 AlphaGo Zero 于 2017 年在《Nature》发表,与上代相比,不需要人类棋手比赛数据作为训练集,而是通过自对抗的方式自己训练出最佳模型。
三代 AlphaZero 在 2018 年诞生,将适应领域拓宽至国际象棋和日本将棋,而不是仅限于围棋。
第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戏规则的情况下自学规则,不仅在更灵活、更多变化的 Atari 游戏上代表了 AI 的最强水平,同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。
01. 从未知中学习:三要素搭建动态模型
与机器擅长重复性的计算和牢固的记忆不同,人类最大的优势就是预测能力,也就是通过环境、经验等相关信息,推测可能会发生的事情。
比如,当我们看到乌云密布,我们会推测今天可能有雨,然后再重新考虑是否要出门。即使对于仅有几岁的孩子而言,学会这种预测方式,然后推广到生活的方方面面也是很容易,但这对于机器来说并不简单。
对此,DeepMind 研究人员提出了两种方案:前向搜索和基于模型的规划算法。
前向搜索在二代 AlphaZero 中就已经应用过了,它借助对游戏规则或模拟复盘的深刻理解,制定如跳棋、国际象棋和扑克等经典游戏的最佳策略。但这些的基础是已知游戏规则及对可能出现的状况大量模拟,并不适用情况相对混乱的 Atari 游戏,或者未知游戏规则的情况。
基于模型的规划则是通过学习环境动态进行精准建模,再给予模型给出最佳策略。但对于环境建模是很复杂的,也不适用于 Atari 等视觉动画极多的游戏。目前来看,能够在 Atari 游戏中获得最好结果的模型(如 DQN、R2D2 和 Agent57),都是无模型系统,也就是不使用学习过的模型,而是基于预测来采取下一步行动。
也是由于以上两个方法中的优劣,MuZero 没有对环境中所有的要素进行建模,而是仅针对三个重要的要素:
1、价值:当前处境的好坏情况;
2、策略:目前能采取的最佳行动;
3、奖励:最后一个动作完成后情况的好坏。
那接下来,我们就来看看 MuZero 是如何通过这三个要素进行建模。
MuZero 从当前位置开始(动画顶部),使用表示功能 H 将目前状况映射到神经网络中的嵌入层(S0),并使用动态函数(G)和预测函数(F)来预测下一步应该采取的动作序列(A)。
▲基于蒙特卡洛树状搜索和 MuZero 神经网络进行规划
那如何知道这一步行动好不好呢?MuZero 会与环境进行互动,也是模拟对手下一步的走向。
▲MuZero 通过模拟下棋走向训练神经网络。
而每一步棋对于整体棋局的贡献都会被累加,成为本次棋局最后的奖励。
▲策略函数 P 得到每一步预测下法,价值函数 V 得到每一步的奖励。
除了减少建模工作量外,这种方法的另一个主要优点就是可以不断复盘,而不需要得到外界的新数据。这样的优势也很明显,在 Atari 的测试中,名为 MuZero Reanalyze 的变体可以利用 90%的时间使用学习过的模型进行重新规划,找到更优策略。
02.MuZero 强在哪?追平前辈,拓宽 Atari 游戏战场
MuZero 模型分别自学了围棋、国际象棋、日本将棋以及 Atari 游戏,前三者用来评估模型在规划问题上的表现,Atari 则用来评估模型面对视觉游戏时的表现。
▲MuZero 分别在国际象棋、日本将棋、围棋和 Atari 游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示 Elo 评分。黄色线代表 AlphaZero(在 Atari 游戏中代表人类表现),蓝色线代表 MuZero。
在围棋、国际象棋和日本将棋中,MuZero 不仅在多训练步骤的情况下达到甚至超过了 “前辈”AlphaZero 的水平,在 Atari 游戏中,MuZero 也表现突出。
▲MuZero 在 Atari 游戏中的性能。所有得分均根据人类测试的性能进行了归一化,最佳结果以粗体显示。
为了进一步评估 MuZero 模型的精确规划能力,DeepMind 的研究人员还进行了围棋中经典的高精度规划挑战,即指下一步就判断胜负。
为了证实更多的训练时间能使 MuZero 模型更强大,DeepMind 进行了如下面左图实验,当每一步的判断时间从 0.1 秒延长到 50 秒,评价玩家技能的 Elo 指标能增加 1000,相当于业余棋手和最强职业棋手之间的区别。
而在右图的 Atari 游戏 Ms Pac-Man(吃豆小姐)的测试中,也能很明显地看出训练时长越长时,模型表现越好。
▲左图:随着步骤判断时间增加,围棋 Elo 指标上涨;右图:训练时长越长,模型表现越好
03. 结语:出身于游戏,期待更多应用
基于环境要素建模的 MuZero,用在多个游戏上的 “超人”表现证明了卓越的规划能力,也象征着 DeepMind 又一在强化学习和通用算法方面的重大进步。
它的前辈 AlphaZero 也已投身于化学、量子物理学等领域,切身实地地为人类科学家们解决一系列复杂问题。在未来,MuZero 是否可以继承 “家业”,应对机器人、工业制造、未知 “游戏规则”的现实问题所带来的挑战,我们拭目以待。