不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源

机器之心报道机器之心编辑部腾讯王者荣耀人工智能「绝悟」的论文终于发表了。在研究测试中,AI玩露娜和顶级选手单挑时也赢了个3:0。围棋被攻克之后,多人在线战术竞技游戏(MOBA)已经成为测试检验前沿人工智能的动作决策和预测能力的重要平台。基于腾讯天美工作室开发的热门MOBA类手游《王者荣耀》,腾讯AILab正努力探索强化学习技术在复杂环境中的应用潜力。本文即是其中的一项成果,研究用深度强化学习来为智能体预测游戏动作的方法,该论文已被AAAI-2020接收。据介绍,此技术支持了腾讯此前推出的策略协作型AI「绝悟」1v1版本,该版本曾在今年8月上海举办的国际数码互动娱乐展览会ChinaJoy首次亮相,在2100多场和顶级业余玩家体验测试中胜率达到99.8%。王者荣耀1v1游戏UI界面。在主屏幕中,左上角的A为小地图、右上角B为控制面板、左下角C.1为移动控制、右下角的C.2为技能控制。实验表明,AI智能体能在多种不同类型的英雄上能击败顶级职业玩家。此外,腾讯AILab告诉机器之心,本文提出的框架和算法将在未来开源,而且为了促进对复杂模拟场景的进一步研究,腾讯也将在未来把《王者荣耀》的游戏环境提供给社区使用,并且还会通过虚拟云的形式向社区提供计算资源。腾讯AILab表示,AI+游戏的研究成果,短期看,可以给游戏行业、电竞行业带来直接的推动和帮助,同时也能应用到教育、医疗、农业等更多行业中。长期来看,AI+游戏的研究,会推进AI的终极目标——通用人工智能问题的探索和发展。除了本次研究提出的王者1v1智能体,腾讯AILab与王者荣耀还将联合推出「开悟」AI+游戏开放平台。王者荣耀会开放游戏数据、游戏核心集群(GameCore)和工具,腾讯AILab会开放强化学习、模仿学习的计算平台和算力,邀请高校与研究机构共同推进相关AI研究,并通过平台定期测评,让「开悟」成为展示多智能体决策研究实力的平台。目前「开悟」平台已启动高校内测,预计在2020年5月全面开放高校测试,并且在测试环境上,支持1v1,5v5等多种模式;2020年12月,腾讯计划举办第一届的AI在王者荣耀应用的水平测试。想想是不是就很有趣?王者荣耀SOLO人类为了评估智能体的能力,研究者将模型部署到王者荣耀中,并与专业的顶级玩家对战。比赛确保了智能体每做一次决策的反应时间与人类差不多。表3给出了AI和5名顶级职业选手的比赛结果,需要指出这些职业玩家玩的都是他们擅长的英雄。可以看到AI能在多种不同类型的英雄上击败职业选手。表3:AI与职业选手使用不同类型英雄比赛的结果绝悟选择了每个人类玩家擅长的英雄进行了1v1的五局三胜对战,用到的英雄包括貂蝉、狄仁杰、露娜、韩信和花木兰。当然,与5位顶级玩家的对战并不能说明智能体已经无敌了,因此在ChinaJoy2019中,腾讯AILab举行了大型公开赛。如果玩家在1v1比赛中击败了游戏AI,那么能获得价值4200元人民币的智能手机,而且现场参赛设置了门槛:挑战AI的玩家需要达到排位前1%(即在天梯上达到「荣耀王者」级别)。在所有2100次匹配赛中,游戏AI只输了4次(其中国服第一后羿拿下了一局),更详细的对战信息可查看文后实验部分。王者荣耀为什么很难打在竞争环境中学习具备复杂动作决策能力的智能体这一任务上,深度强化学习(DRL)已经得到了广泛的应用。在竞争环境中,很多已有的DRL研究都采用了两智能体游戏作为测试平台,即一个智能体对抗另一个智能体(1v1)。Atari和围棋等游戏目前已经有很多优秀的解决方案,但更复杂的推塔类游戏又该怎么解?这篇研究就在探讨这种更复杂的MOBA1v1游戏,其中MOBA1v1游戏就是一种需要高度复杂的动作决策的RTS游戏。相比于棋盘游戏和Atari系列等1v1游戏,MOBA的游戏环境要复杂得多,AI的动作预测与决策难度也因此显著提升。以MOBA手游《王者荣耀》中的1v1游戏为例,其状态和所涉动作的数量级分别可达10^600和10^18000,而围棋中相应的数字则为10^170和10^360,参见下表1。表1:围棋与MOBA1v1游戏的比较此外,MOBA1v1的游戏机制也很复杂。要在游戏中获胜,智能体必须在部分可观察的环境中学会规划、攻击、防御、控制技能组合以及诱导和欺骗对手。除了玩家与对手的智能体,游戏中还有其它很多游戏单位,比如小兵和炮塔。这会给目标选择带来困难,因为这需要精细的决策序列和相应的动作执行。此外,MOBA游戏中不同英雄的玩法也不一样,因此就需要一个稳健而统一的建模方式。还有一点也很重要:MOBA1v1游戏缺乏高质量人类游戏数据以便进行监督学习,因为玩家在玩1v1模式时通常只是为了练习英雄,而主流MOBA游戏的正式比赛通常都采用5v5模式。需要强调,本论文关注的是MOBA1v1游戏而非MOBA5v5游戏,因为后者更注重所有智能体的团队合作策略而不是单个智能体的动作决策。考虑到这一点,MOBA1v1游戏更适合用来研究游戏中的复杂动作决策问题。这么难,AILab怎么解?为了解决这些难题,腾讯AILab设计了一种深度强化学习框架,并探索了一些算法层面的创新,对MOBA1v1游戏这样的多智能体竞争环境进行了大规模的高效探索。文中设计的神经网络架构包含了对多模态输入的编码、对动作中相关性的解耦、探索剪枝机制以及攻击注意机制,以考虑MOBA1v1游戏中游戏情况的不断变化。腾讯AILab表示,这篇论文的贡献在于,对需要高度复杂的动作决策的MOBA1v1游戏AI智能体的构建进行了全面而系统的研究。在系统设计方面,研究者提出了一种深度强化学习框架,能提供可扩展的和异步策略的训练。在算法设计方面,研究者开发了一种用于建模MOBA动作决策的actor-critic神经网络。网络的优化使用了一种多标签近端策略优化(PPO)目标,并提出了对动作依赖关系的解耦方法、用于目标选取的注意机制、用于高效探索的动作掩码、用于学习技能组合LSTM以及一个用于确保训练收敛的改进版PPO——dual-clipPPO。下面,我们来看看这个强大的智能体,在算法和效果上都是什么样的。论文地址:https://arxiv.org/abs/1912.09729顶级智能体长什么样?系统设计考虑到复杂智能体的动作决策问题可能引入高方差的随机梯度,所以有必要采用较大的批大小以加快训练速度。因此,本文设计了一种高可扩展低耦合的系统架构来构建数据并行化。具体来说,这个架构包含四个模块:强化学习学习器(RLLearner)、人工智能服务器(AIServer)、分发模块(DispatchModule)和记忆池(MemoryPool)。如图1所示。图1:系统设计概况AI服务器实现的是AI模型与环境的交互方式。分发模块是用于样本收集、压缩和传输的工作站。记忆池是数据存储模块,能为RL学习器提供训练实例。这些模块是分离的,可灵活配置,从而让研究者可将重心放在算法设计和环境逻辑上。这样的系统设计也可用于其它的多智能体竞争问题。算法设计RL学习器中实现了一个actor-critic神经网络,其目标是建模MOBA1v1游戏中的动作依赖关系。如图2所示。图2:论文实现的actor-critic网络为了实现有效且高效的训练,本文提出了一系列创新的算法策略:目标注意力机制;用于帮助AI在MOBA战斗中选择目标。LSTM;为了学习英雄的技能释放组合,以便AI在序列决策中,快速输出大量伤害。动作依赖关系的解耦;用于构建多标签近端策略优化(PPO)目标。动作掩码;这是一种基于游戏知识的剪枝方法,为了引导强化学习过程中的探索而开发。dual-clipPPO;这是PPO算法的一种改进版本,使用它是为了确保使用大和有偏差的数据批进行训练时的收敛性。如图3所示。图3:论文提出的dual-clipPPO算法示意图,左为标准PPO,右为dual-clipPPO有关这些算法的更多详情与数学描述请参阅原论文。惊艳的实验效果测试平台为热门MOBA游戏《王者荣耀》的1v1游戏模式。为了评估AI在现实世界中的表现,这个AI模型与《王者荣耀》职业选手和顶级业余人类玩家打了大量比赛。实验中AI模型的动作预测时间间隔为133ms,这大约是业余高手玩家的反应时间。另外,论文方法还与已有研究中的基准方法进行了比较,其中包括游戏内置的决策树方法以及其它研究中的MTCS及其变体方法。实验还使用Elo分数对不同版本的模型进行了比较。在上文中,通过挑战顶级职业玩家,腾讯AILab可以探索智能体动作决策能力的上限;通过挑战大量顶级业余玩家,AILab可以评估智能体的动作决策能力稳健性。在2019年8月份,王者荣耀1v1AI对公众亮相,与大量顶级业余玩家(Top1%)进行了2100场对战,AI胜率达到惊人的99.81%,在5个英雄上都保持绝对的胜率。表4:AI与不同顶级人类玩家的比赛结果。基准比较可以看到,用论文新方法训练的AI的表现显著优于多种baseline方法。图4:击败同一基准对手的平均时长比较训练过程中模型能力的进展图5展示了训练过程中Elo分数的变化情况,这里给出的是使用射手英雄「狄仁杰」的例子。可以观察到Elo分数会随训练时长而增长,并在大约80小时后达到相对稳定的水平。此外,Elo的增长率与训练时间成反比。图5:训练过程中Elo分数的变化情况控制变量研究为了理解论文方法中不同组件和设置的效果,控制变量实验是必不可少的。表5展示了使用同样训练资源的不同「狄仁杰」AI版本的实验结果。表5:控制变量实验在2020年第一场人工智能学术顶会AAAI开幕之前,机器之心将策划多期线上分享,本论文一作叶德珩博士将于1月2日晚为大家做直播分享。线上分享将在「AAAI2020交流群」中进行,加群方式:添加机器之心小助手(syncedai4),备注「AAAI」,邀请入群。入群后将会公布直播链接。

未经允许不得转载:新资讯 » 不服SOLO:腾讯绝悟AI击败王者荣耀顶尖职业玩家,论文入选AAAI,未来将开源

赞 (0)

评论 0

评论前必须登录!

登陆 注册