作为 DeepMind 研究工作的延续,它创建了 Player of Games 的系统,这家实验室在预印本服务器 Arxiv.org 上发表的一篇研究论文中,首次披露了这一系统。
与 DeepMind 之前开发的其他博弈系统不同,如赢得国际象棋的 AlphaZero 、击败《星际争霸 II》(StarCraft II)的 AlphaStar,Player of Games 既能在完美信息博弈(如中国棋类博弈围棋和国际象棋)中表现良好,也能在不完美的信息博弈(如扑克)中表现良好。
像交通拥堵时的路线规划、合同谈判、甚至与客户的互动等任务都涉及妥协,并考虑到人们的偏好如何重合和冲突,就像在博弈中一样。即便人工智能系统是自利的,它们也可能通过协调、合作和在人群或组织之间的互动而受益。因此,诸如 Player of Games 之类的系统,可以对他人的目的和动机进行推理,从而为人工智能在与他人的协作中取得成功,包括解决与保持信任相关的问题铺平道路。
不完美信息博弈与完美信息博弈
不完美信息博弈在博弈过程中对 Player 隐藏了信息。与此形成鲜明对比的是,完美信息博弈从一开始时就把所有的信息都展示了出来。
完美信息博弈,要想取得胜利,必须要有足够的预先思考和规划。Player 需要在博弈中解决他们所看到的一切,并且确定他们的对手可能会怎么做,同时努力实现获胜的最终目标。而不完美信息博弈则要求 Player 考虑隐藏的信息,并思考下一步如何行动才能获胜,包括可能的虚张声势或联手对抗对手。
AlphaZero 这样的系统在象棋等完美信息博弈中表现出色,而诸如 DeepStack 和 Libratus 等算法在扑克这样的不完美信息博弈中表现得非常好。但 DeepMind 宣称,Player of Games 是首个“通用且健全的搜索算法”,它在完美信息博弈和不完美信息博弈都表现不错。
尽管 Player of Games 具有极强的通用性,但它不能仅仅进行任何博弈。Schmid 说,这个系统必须要把博弈中的每一个 Player 所有可能的视角都考虑进去。尽管在完美信息博弈中只有一个视角,但是在不完美信息博弈中,这样的视角可以有很多,比如,扑克有大约 2000 个视角。另外,与 DeepMind 的 AlphaZero 的继任者 MuZero 不同,Player of Games 还需要了解它所进行的博弈的规则。MuZero 能够随时掌握完美信息博弈的规则。
在研究中,DeepMind 通过谷歌的 TPUv4 加速芯片,在国际象棋、围棋、德州扑克和战略棋盘博弈苏格兰场(Scotland Yard)对 Player of Games 进行了评估。对于围棋,DeepMind 在 AlphaZero 和 Player of Games 之间设置了一场 200 局的比赛;对于国际象棋,DeepMind 让 Player of Games 与 GnuGo、Pachi、Stockfish、AlphaZero 等顶级系统进行较量。Player of Games 的德州扑克比赛是与公开的 Slumbot 进行的,该算法与 Joseph Antonius Maria Nijssen 研发的机器人进行了苏格兰场比赛,DeepMind 的合作者们为其起了昵称“PimBot”。
苏格兰场的抽象视图,Player of Games 可以持续获胜
在国际象棋和围棋中,事实证明,Player of Games 在某些方面(但并非所有方面)胜过 Stockfish 和 Pachi,并在与最强的 AlphaZero 智能体的较量中,赢得了 0.5% 的比赛。虽然败于 AlphaZero,但 DeepMind 相信,Player of Games 在博弈中的表现和“顶级人类业余选手”相当,甚至可能达到了专业水准。
Player of Games 是一个更好的扑克和苏格兰场 Player 。在与 Slumbot 的比赛中,这个算法平均每手赢了 7 个百万大盲注(百万大盲注/手),其中百万大盲注/手是指每 1000 手赢得的平均大盲注数(大盲注等于最小赌注)。同时,在苏格兰场,DeepMind 报告说,Player of Games 在对阵 PimBot 时获得了“显著 ”的胜利,尽管 PimBot 拥有更多的机会去搜索获胜的动作。
今后的工作
Schmid 认为,Player of Games 是迈向真正的通用博弈系统的一大步,但远非最后一步。这个实验的总体趋势是,如果有更多的计算资源,则算法会表现得更好(光是苏格兰场就有 1700 万步或动作的数据集训练 Player of Games),Schmid 预期这种方法会在可预见的未来得到推广。
Schmid 说:“我们期望从 AlphaZero 中受益的应用也能从 Player of Games 中受益。使这些算法更具通用性,是一项令人兴奋的研究。”