无双剑姬吧 关注:163,246贴子:2,997,785
  • 4回复贴,共1

水一贴,数据分析 - 如何赢得LOL的rank

只看楼主收藏回复

众所周知,现在的情况都憋在家里闲的,就先来水一贴。本菜鸟假装在那指点江山,初略写一点,众看官就当图一乐。
好了,开始正题,粗谈 如何赢得LOL的rank 。当然,这次的话题不是根据 某一个玩家 的若干次游戏的体感进行吹逼,而是无意间发现了一批LOL的rank数据记录。
自然,以这批数据的记录进行很粗糙的分析。(本来是别人写的数据分析,我在他的基础上重新进行了调整,把一些不合理的地方进行了重写,顺手添加了一些内容。俗称,水一贴。)
这批数据主要记录的是2017年的LOL的rank数据,当然都是EUW、NA、EUN、TR的服务器的记录,没有国内记录,何况还是三年前的,大概只能仅供借鉴了。(有哪位老哥知道,在哪里搞到最近的数据。如果方便的话,可以告知一下,我再来测试一下,一切搞定后,就把代码也放上来。谢谢了!)
一共有18万+的记录,合计约为1G大小。
整理过程就跳过了,最后的数据大概如下:

摒弃了一些脏数据。粗略考虑了一下,决定把虐杀的数据的比赛也剔除了。比如,被杀的心态爆炸,集体泉水里面插眼,或者击杀/时间比例明显不正常,导致一方被当成猪一样的疯狂宰杀。插眼/游戏时间 的99分位数:1.5046173913836673 ; 击杀/游戏时间 的99分位数:0.9501800281596284 。 所谓99分位数,即所有数据按照大小顺序排列,排在第99%位置上的数据,通常,人们认为99分位数以上的数据,为极端值,为了避免干扰,选择剔除。
相当于,把 插眼/游戏时间>1.5 的 和 击杀/游戏时间 >0.95的都剔除了。
来一点开心的话题,天下玩家一家亲,比如人见人恨的 国足-盲僧 (Lee Sin),胜率不到50%,
依然很多人拿来玩。

先来一些老生常谈,其实有一点废话的意思,您也可以跳过下面三张图,直接从加粗的那一行开始。
1. 常言道,要多插眼:

大体可以看出,多插眼确实有利于获胜
2. 很多人都说这不是杀人的游戏,那么击杀数的情况:

击杀数确实对于比赛的胜率是存在影响的
3. 菜刀与法刀(AD伤害 VS AP伤害),哪种更多?

虽然是2017年的版本,但是可以感觉出来,菜刀的更受欢迎一些。
开始谈主题了,毕竟rank里面影响因数很多,不可能靠一两个因数来决定胜负的走向。
先看所有rank里面的,各个常见因素的相关性(都是一些简单的英文单词,我就不翻译了。其实原因是:python里面输出汉字比较折腾,我也懒得调,有太拗口的单词留言一下,我帮忙备注翻译一下。):

偏绿色的为正相关,偏红色为负相关。颜色越深,表示相关的系数越大。比较常见的较为重要的正相关因数,比如:击杀、助攻、拆塔数等,比较负面的相关因数,比如:死亡数。
当然,这里的相关性是线性相关性,实际上是不太严谨的,等下后文会用非线性的模型,去拟合一下胜率。
考虑到大家经常说:按照25分钟以内算短比赛,40分钟以上算长比赛。
那么,对于25分钟以内的比赛而言:

可以发现,相对于所有记录,25分钟以内的game,击杀、助攻、死亡、拆塔数这些影响更大。这也是常见的炸鱼选手、代练最喜欢干的事情,最快速的杀崩,早点结束游戏。
同理,40分钟以上的比赛:

对于长比赛而言,击杀、助攻、拆塔的影响性降低。
由于线性的关系不是那么严谨,还是用非线性的来考量。
我们来看一下原始表,其中,matchid为game的匹配号,也就是说,一场游戏的10个玩家拥有一样的matchid。
实际上,再剔除掉脏数据后,只有14万+的记录了。本身由于记录里面缺乏段位等标识,应该是分布在各个段位的rank,所以我们就不拿段位作为考量标准了。
数据都是S7的的rank的数据,姑且不考虑中途各种小补丁带来的影响(毕竟三年前的事情,好多补丁都记不清了)。
为了避免数据穿越(leak),我们选择以matchid作为随机抽样的标准。即:抽70%的matchid作为训练集,30%的matchid为测试集。避免同一场比赛,同时出现再训练集和测试集两侧。
预测目标:matchid(游戏的匹配号),team_red(是否为红方,毕竟分为红方和蓝方),win(是否获胜)。
先全部游戏考量,模型选择数据挖掘比赛中常见的lightGBM,以常见的F1-score为评价指标,其为0.975。
某种意义上讲,游戏的数据,更容易反应出游戏的胜负走向。
然后我们来获得特征(也就是常说的影响因素)的重要性,选取其中的top30来观察:

依然可以看出来,全队的死亡数、平均每分钟击杀数、拆塔数、补刀获得金币、对英雄造成伤害的性价比(对英雄的伤害/获得的金币)、助攻数等,这些为主要因素。
同样,我们来观察25分钟以内的比赛:

短时间的比赛,明显可以感觉到,全队死亡数有、每分钟击杀数变得更加重要。所谓猪队友送人头拖后腿、尽快杀崩结束比赛,也不算空穴来风的说法。
那么,40分钟以上的比赛:

虽然每分钟击杀数、死亡数还是最重要的两个特征,但是,明显不如25分钟的短比赛对全局的走向影响那么严重,甚至可以发现,各个因素的影响,变得更加接近了,难以靠个别因素来容易影响比赛的胜负走向。
当玩家的比赛的时间变得更长的时候,反而不需要太在意双方的人头差距,从力所能及的角度去来缩小双方的差距,来提高己方的胜率。
原作者,本来有一段,英雄VS英雄的特征编码,也就是一场比赛的10个英雄,5个对的编码,这些编码有的优劣势的打分,我本来想拿来用的,可是细细看,发现有一些编码的打分和平时印象里面不一致。
比如:剑姬VS潘森,我记得2017年的版本,应该是剑姬劣势,但是这组编码打分上,剑姬居然是优势,而且是较大优势,不知道是欧美的玩家的玩法比较独特还是原作者的打分情况存在部分的不合理。
考量了一番,决定放弃了 这些 英雄VS英雄 的编码打分特征。
后面,如果有空,我再看一下,哪里的不合理导致出现一些不合常识的优劣组得分的结果。
无聊水一贴,各位看官见笑了。


IP属地:上海1楼2020-02-21 00:19回复
    看傻了,感觉很厉害的样子


    IP属地:江西来自Android客户端2楼2020-02-21 02:23
    回复
      2025-12-30 00:12:46
      广告
      不感兴趣
      开通SVIP免广告
      总结全文


      IP属地:广西来自Android客户端3楼2020-02-21 11:27
      收起回复
        那这些数据在哪里可以查到


        IP属地:上海来自Android客户端4楼2020-02-24 07:01
        回复