超过12天和10000手,名为Pluribus的AI系统在两种不同的环境中面对12名职业选手。其中一个是,人工智能与五个人类玩家一起玩; 另一方面,五个版本的AI与一个人类玩家一起玩(计算机程序在这种情况下无法合作)。据研究人员称,Pluribus每手平均赢得5美元,每小时奖金约为1000美元 – 这是一个“决定性的胜利”。
“可以肯定地说,我们处于超人级的水平并且不会发生变化,”Facebook人工智能实验室的研究科学家兼Pluribus的联合创始人Noam Brown告诉The Verge。
“Pluribus是一个非常努力的对手。在任何形式的手牌上都很难将其击败,”六次世界扑克锦标赛冠军和12名专业选手之一Chris Ferguson在一份新闻声明中表示。
在《科学》杂志上发表的一篇论文中,Pluribus背后的科学家表示,这次胜利是人工智能研究的一个重要里程碑。虽然机器学习已经达到了国际象棋和围棋等棋盘游戏以及《星际争霸2》 和《Dota》等电脑游戏的超人级水平,但在某种程度上,六人无限制德州扑克代表了更高的难度基准。
这不仅需要赢得玩家隐藏的信息(使其成为所谓的“不完美信息游戏”),它还涉及多个玩家和复杂的胜利结果。着名的Go游戏比可观察宇宙中的原子具有更多可能的棋盘组合,这使得人工智能制定下一步的动作是一个巨大的挑战。但是所有的信息都可以看到,而且游戏只有两种可能的结果:输赢。这使得在某种意义上更容易训练AI。
早在2015年,机器学习系统在双人德州扑克中击败了人类专业选手,但是将对手数量增加到5个会大大增加复杂性。为了创建一个能够应对这一挑战的计划, Brown和他的同事-CMU教授Tuomas Sandholm部署了一些关键策略。
首先,他们教Pluribus玩扑克,让它与自己的副本进行比赛 – 这个过程被称为自我对弈(self-play)。这是人工智能训练的常用技术,系统能够通过反复试验来学习游戏; 与自己玩数十万手牌。这个培训过程也非常有效:使用配备少于512GB RAM的64核服务器在短短8天内创建了Pluribus。在云服务器上培训这个程序只需150美元,与其他最先进系统的十万美元价格相比,这相当便宜。
然后,为了应对六名玩家的额外复杂性, Brown和Sandholm提出了一种有效的方式让人工智能在游戏中展望未来并决定采取何种行动 – 一种称为搜索功能的机制。其不是试图预测对手将如何一直玩到游戏结束(计算将在几个步骤中变得非常复杂),而Pluribus的设计只是展望前方两三步。Brown说道,这种截断的方法是“真正的突破”。
例如,Pluribus非常擅长“吓唬”其对手,与其对抗的专业人士赞扬其“无情的一致性”。Brown称人们经常把虚张声势视为一种独特的人类特质。但他表示,这种艺术仍然可以简化为数学上最优的策略。“人工智能并不认为虚张声势具有欺骗性。它只是看到了决定,使其成为特定情况下的最多钱,“他说。“我们展示的是人工智能可以虚张声势,它可以比任何人更好地诈唬。”
Brown和Sandholm希望他们所展示的方法可以应用于网络安全、欺诈预防和金融谈判等领域。Brown称这“甚至可以用于自动驾驶汽车”。值得注意的是Pluribus是一个静态程序。在最初的八天训练期之后,AI从未更新或升级,因此它可以更好地匹配其对手的策略。在与职业选手一起度过的12天里,他们从来没有能够在比赛中找到一致的弱点。Pluribus一直处于领先地位。
本文素材来自互联网