Lingsing 2024.10.22
这次寒冷抑制的perk组合概率遭到了非常多人的质疑,我也不例外。RNG在许多游戏中都是一个被玩家相当看重但对于具体细节却又模糊不清的东西,在多数时候它会直接与玩家的游戏利益相关。在看完事件始末之后我也是与PVE podcast的一些佬们有过些微交流,那么作为一个数据爱好者,在下不才,愿分享我的一些拙思。
观前声明:本人不对“棒鸡是否调整了部分perk组合的出率”这个论题发表任何的看法,仅是对本次事件中所提出的概率统计能否支持“棒鸡修改了概率”这个假设进行尽量客观公正的评判。还望读者在读完这篇文章之后不要在评论区大打出手,和平且理性的讨论才是最好的。
一、推特Spark的统计
Spark的统计犯了一个很严重的问题。对于一个大规模的数据集,当我们想要获取其中某一个/几个数据的近似频率时,抽样调查是一个很好的手段。但若要抽样中数据频率能够反映总数据集中数据的频率,那么需要满足几个条件:
随机抽样:该样本应当是尽可能地从数据集中随机抽取数据组成的。
样本大小:样本应当足够大以保证频率估计的准确性,一个太小的样本很容易导致结果的不可靠。
样本独立性:样本中的数据点应当互相独立。一个数据点间具有强相关的样本很可能不能反映数据集的真实特征。
无偏估计:抽样的方式不应当对某一种数据具有偏向性。该条不只是指选择数据的过程,也是指收集数据的过程(如问卷调查的题目等)不应该出现偏倚。
而Spark的数据是这么收集的:他找到了几位刷了非常多把(通常都在200把以上)并且尚未出货的玩家,统计他们的总把数,并对其进行统计分析。这很显然严重违反了无偏以及随机抽样的条件,因而以这个抽样做出的概率统计是无法反映总数据集的情况的。
如果使用这样子的数据收集方法,我不仅能证明老一榴弹嫉妒诱导的出货率低于1/216,我甚至能证明这个概率低于1/324(此时3901次不出货的概率为5.79*10^(-4)%=0.000579%,约17.3W条世界线中出现一条)。更进一步的,只要我找到足够多刷了没有出的数据,我可以证明这个概率低于任意值。
这就好像我现在有5000颗质地均匀的骰子,我把每个骰子投20次,从这5000颗骰子里找出了50颗骰子,他们在这20次中一次都没有投到6(20次不出6概率约为2.61%,比方舟无水位单抽出金的概率要高那么一点)。而5000颗骰子里有至少50颗骰子20次不出6的概率近似为99.99999999995183%。
该例的概率计算,其中不少于50个骰子的概率将二项分布近似为正态分布
然后我说根据这个抽样,可以证明骰子骰出6的概率远小于1/6,因为50颗骰子骰20次共1000次不出6的概率是6.59*10^(-78)%,几乎不可能,这显然是荒谬的。
二、light.gg的数据统计
除了Spark的这份统计之外,我也看到拿出light.gg数据的帖子。light.gg约有21.71W的数据,其中嫉妒诱导(哎我说嫉妒军械库和嫉妒刺客都简写嫉妒疑似有点容易搞混了)的概率不在前八之内,而反观赛季榴弹则以9.63%居于榜首。
light.gg所统计的数据是玩家所留存的武器,那么嫉妒诱导就应该因玩家筛选而拥有额外高的频率,就像赛季榴弹那样,而不应该连前八都进不了,毕竟嫉妒诱导是公认的gr——但果真如此吗?玩家偏好留存是一个主观的行为,可能有人认为已经有赛季榴弹了,这把榴弹不必要再留一个相同perk组的;可能有人认为相比嫉妒诱导,级联点诱导更具优势;可能有人认为速射榴弹输出不如适配,留一点清怪的就行;也可能还没仔细看嫉妒军械库的效果,认为这个perk效果并不如其他的好。社交媒体中大部分玩家公认的gr并不一定就被所有玩家接受,除了有自己理解的人群外,也有许多不怎么关注社交媒体的玩家。因此我们很难非常肯定的下结论,绝大多数玩家在获取到嫉妒诱导时都会将其保留下来。
那么综上所述,light.gg是否满足抽样的几个条件呢?答案是不满足的,从玩家筛选留存中选出的样本显然不符合无偏估计的要求。那么我们能否从这个数据中得到有效的结论?也不一定。首先我们不能保证嫉妒诱导一定是留存率高的那个,如上所述。其次light.gg使用API查询玩家的仓库与背包进行统计,但前提是玩家需要在官网的账户设置-隐私中勾选“显示我的非装备物品栏”,light.gg只能查询到约10%玩家的数据。而这(无论出于什么原因)开放API给light.gg的玩家,也不一定就能认为这部分玩家能够代表整体。
有人可能会说:放屁!大伙都公认的gr,留存率肯定高,10%玩家中这频率这么低显然就是有问题还有什么好洗的?
但我们在使用统计学的方法来求证它是否真的调整了概率,使用科学的方法自然需要科学的分析。那么light.gg的数据在统计学上可以得到显著有效的结论吗?不是很能,因为它的数据样本具有不低的有偏可能性。它无法支持没有调整概率,也不能明确地支持调整了概率。对于这样的数据,最好的方案是——弃用,不使用这一份数据进行任何分析。
三、如何求证概率是否真的被调整?
我们需要更原始,更好的数据样本。最好的办法就是建一个数据库或者共享文档之类的,所有人每出一把榴弹就向库中加入一条数据,收集到足够量,然后对这一份样本进行分析,这99%能够得出正确的结论(只要没有人故意捣乱)。
四、结论与杂谈
总的来说,我并不认为现有的数据样本非常确凿地证明了棒鸡调整了组合的掉落概率,只能说我们可以有所怀疑,但不可以已经实锤的角度对其发表意见。
那么棒鸡有没有用过pRNG的手段?答案是有的!棒鸡确实在护甲的属性随机上动过一个手脚。在高属性护甲的随机器中,棒鸡在护甲第二条和第四条属性组的随机表中多插入了一组(1,1,11),以略微提高护甲出现极限属性分布的情况。
其实统计学有很多反直觉的东西,有些“体感”可能与真实情况大相径庭。比如我看到的一个450把老一没出嫉妒诱导,看上去好像非常的不合理,都这么多把了怎么还不出呢?但按照均匀分布(也即出率1/216),这种情况的发生概率为约12.39%,这可比二游抽卡的概率高多了,平均每8-9个人里就会有这么一个眉笔(无意冒犯)。
五、结束语
非常感谢各位读者能够看到这里,这篇文章省去了多数的公式,并且主要是文字分析,希望读者们没有感到太过于乏味。如果有什么谬误,还望各位读者能够在评论区斧正;有更多不同的观点与意见,也欢迎在评论区发表并理性进行讨论。
该文章基于CC BY-SA 4.0协议共享。