当前位置: 首页 > 手游 > 王者荣耀

想要提高王者荣耀胜率,该选择英雄?

来源:网络 时间:2022-08-13 08:48:33
导读我们知道,王者荣耀已经上线4年了,4年对于一个手游来说简直算是一个奇迹了,而截止到今年3月份,加上绝版英雄艾琳,王者荣耀现在已经有105个英雄了!每个英雄都有独特的技能和能力,而且英雄彼此之间还存在复杂的克制或互补关系。就拿盾杀来讲,只要他的盾还在,敌方英雄就很难有输出!不信你看下面可怜的射手后裔: 你再看,可怜的法师嬴政: ‍ 就连疯狗典韦都敬而远之:

我们知道,王者荣耀已经上线4年了,4年对于一个手游来说简直算是一个奇迹了,而截止到今年3月份,加上绝版英雄艾琳,王者荣耀现在已经有105个英雄了!每个英雄都有独特的技能和能力,而且英雄彼此之间还存在复杂的克制或互补关系。就拿盾杀来讲,只要他的盾还在,敌方英雄就很难有输出!不信你看下面可怜的射手后裔:

你再看,可怜的法师嬴政:

就连疯狗典韦都敬而远之:

其实,盾山克制的英雄还有很多,如果你是王者荣耀玩家,想必也能说出很多被盾山克制的英雄。但是,作为战坦的盾山血量要比一般的坦辅英雄要少,而且当盾山举盾时移速会降低,这时热衷玩钟馗或王昭君等英雄的玩家就很开心碰到盾山,这样自己钩子或者冰冻技能的命中率就会大幅提升。

所以说,对于王者荣耀对局能否胜利,团队英雄阵容的选择相当重要!那么,英雄阵容到底应如何选择呢?

对于王者荣耀职业联赛(KPL)而言,每场比赛包含多局(BO3,BO5等),且一支队伍在一场比赛中每个英雄最多只能使用一次,这就使得想要获得本场比赛的胜利,就不能仅考虑一局比赛时英雄阵容的选择,要从全局的角度出发进行阵容的选择与搭配。

近日,腾讯 AI Lab 和上海交通大学合作发表了一篇有关多人在线团队竞技类游戏如何选择英雄的论文,该论文将英雄阵容选择过程描述成了一个多轮组合博弈过程,并提出了一种新的基于神经网络和蒙特卡洛树搜索的阵容选择算法,称为JueWuDraft

具体来讲,本文作者设计了一种适应KPL比赛赛制的价值估计机制,可以为KPL队伍BO3或BO5中每局英雄阵容的选择提供全局参考,以保证具有最大的英雄阵容胜率。研究结果表明:相比于其他算法,JueWuDraft算法具有更好的的实用性和有效性。

JueWuDraft算法总体结构

JueWuDraft算法的总体训练框架如下图所示。从总体上看,该算法框架共包含4个模块:数据采样器样本池神经网络训练器模型池

数据采样器由两个玩家和一个游戏核心组成,该游戏核心通过模拟两个玩家之间的比赛来生成样本,样本被发送到样本池进行训练。神经网络训练器使用这些样本对政策和价值网络进行监督学习,并将模型传输到模型池,模型池将训练后的模型与数据采样器同步。以最新的模型为例,数据采样器将继续生成样本,形成一个循环

搜索树中的节点由状态唯一标识,存储有一组统计信息,即。其中,是访问次数;是总值;是平均值;是从其父节点的策略网络预测得出的先验概率;是并行树搜索的虚拟损耗。

当线程访问节点时,虚拟损耗会增加;当线程在该节点上反向传播奖励时,其虚拟损耗会减少。因此,不同的线程更有可能探索不同的节点。父节点和子节点通过边连接,这意味着在状态处执行操作并到达新状态。我们还定义了叶节点:如果节点没有子节点,则为叶节点。

搜索树是通过四个步骤进行迭代构建的:选择评估扩展反向传播,如上图所示。

政策与价值网络训练

深层神经网络能够估计未知状态的值,可以提供当前价值和主导行动的稳定参考,在JueWuDraft算法中起着重要作用。网络通过一个统一的体系结构输出价值和预言(Oracle)策略。

具体而言,对于特定状态,参数化网络同时预测结果和策略。训练时,将其视为有监督的学习问题,并通过梯度下降对损失函数进行调整,该损失函数求和均方误差和交叉熵损失为:

其中,是蒙卡洛树搜索返回的概率,是处罚函数的惩罚因子,是多回合游戏的目标结果。

首先,由于获胜率预测器给出获胜率,可以映射为[-1,1]作为奖励信号:

其中,代表第轮的获胜率。

长期价值传播

正如前面介绍的,在王者荣耀比赛赛制中,前面比赛对局中英雄的选择都会影响后期对局英雄的选择,而将所有相关对局的结果汇总起来预测当前步骤的价值也是很直观的做法。

上图给出了一场王者荣耀BO3比赛的示例,说明了长期价值传播的两种方式:蒙卡洛树搜索中的反向传播步骤价值网络的目标标签。需要注意的是,队伍1和队伍2当前选择英雄的队员的价值反向传播具有相反的符号,因为两个队员都努力根据当前的英雄选择情况最大化其队伍的预测价值。

网络结构和状态重构

为了以更高效的方式训练策略和价值网络,需要对状态进行重构。如下图所示,重构的状态向量主要包含三部分。一是当前局的英雄选择,这对当前局的胜率有主要影响。二是历史的英雄选择信息。三是关系信息(比如,当前对局由哪方先选等)。

胜率预测器

在选择英雄阶段,只能得到阵容信息,胜负信息是未知的。而胜率预测器,将阵容的获胜率作为我们的奖励函数进行预测。该获胜率预测值是使用包含阵容和输赢信息的比赛数据集进行训练的。下图是一个简单的3层神经网络,其输出层通过sigmoid激活函数连接,输出的获胜率为0到1。

算法示例

我们将JueWuDraft和以下三种策略进行了比较。对于每种策略,进行1000次模拟:在每次模拟中,两名玩家参与英雄选择过程,收集其平均预测获胜率,作为衡量两种策略实力的标准。

DraftArtist,使用了单纯的蒙卡洛树搜索,没有策略和价值网络,该策略没有考虑后续对局的情况。

最高胜率(HWR)策略,基于统计数据选择剩余英雄池中胜率最高的英雄。

随机策略(RD),在剩余英雄池中随机挑选一个英雄。

下表基于游戏数据集分别给出了王者荣耀BO3和BO5赛制下,采用JueWuDraft和其他三种策略进行英雄选择时预测的平均获胜率。其中,行策略与列策略对战,这些策略按其优势从上到下以及从左到右的升序排列,对角线对称的获胜率总和为1。

表1 BO3赛制下的预测的平均获胜率

表2 BO5赛制下的预测的平均获胜率

从以上结果可以看出,JueWuDraft在王者荣耀多回合比赛赛制中表现更好,具有更高的平均获胜率。主要原因是一场比赛多局下来每支队伍同一个英雄最多只能选择1次,需兼顾当前对局和随后的对局的获胜可能性,相对复杂。而JueWuDraft算法将此因素考虑在内,因此获得了较高的平均获胜率。但是,JueWuDraft算法与其他三种算法一样并没有将每局选择英雄前禁用英雄这一过程考虑在内。

上图展示了一个具体的模拟案例,其中对局玩家是JueWuDraft和HWR。JueWuDraft在三局比赛中的预测胜率分别为 56.3%、71.8%和65.1%。其中,第二局和第三局中JueWuDraft的胜率比第一局更高。具体而言,在第一局中,JueWuDraft先手选择了成吉思汗而不是平均胜率最高的刘备,尽管首先选择刘备可能会在第一局得到更高的胜率。这说明JueWuDraft的贪心策略没有HWR那么高,而是兼顾后面的对局。

能够认认真真地看完以上内容,并点赞与在看,数模君表示相当地佩服。不知道对于王者荣耀的玩家而言,你是否知道王者荣耀中英雄人物的克制关系呢?不是很清楚的话,建议你收藏下图哟

(来源:小学生王者荣耀秘籍)

文末福利

截至到2021年3月27日19点

文末评论区点赞排名第1、3名的小伙伴将分别获得

露娜紫霞仙子赵云白执事皮肤

大家快来留言吧!

参考文献:

Chen S,Zhu M, Ye D, et al. Which Heroes to Pick? Learning to Draft in MOBA Games withNeural Networks and Tree Search. 2012.10171, 2020.

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:704559159@qq.com

Top
加盟网