如何科学地反对西蒙选题


3楼猫 发布时间:2024-09-23 13:32:22 作者:catbaron Language

《聊聊我是什么货Vol3》中西蒙提到自己的选题被众人批判,这个选题是:
为什么神作游戏的标题都是两个词?
这确实是一个奇怪的选题。咋看之下这个选题似乎没什么意义,因为你可以随口说出一些反例(比如《超级马力欧兄弟》),但有时候直觉和事实并不相符,毕竟一个人能列出的例子终归是少数,因此最好的办法是通过统计数据来验证。在 Kaggle 中有一个公开数据集刚好可以用来做一些分析,也许可以回答这个问题。
注:此数据抓取于 vgchartz.com,实效性截止至2020年

游戏标题长度

在进行分析之前,这个选题中有两个定义需要明确:「两个词的标题」和「神作游戏」。「两个词的标题」是中文的描述,但实际上英文语境中很少真的有两个单词的游戏。比如「The last of US」虽然有四个单词, 无论是「美国末日」还是「最后的生还者」的译名,都符合「两个单词的标题」的印象。为了更合理地计算标题长度,我对数据中的游戏标题做了以下预处理:
  • 只保留主标题,忽略副标题。这里粗暴地删除标题中冒号及之后的内容,比如 Dragon Quest XI: Echoes of an Elusive Age 会被处理为 Dragon Quest XI。
  • 忽略标题末尾的标号,包括阿拉伯数字和罗马数字,因此 Dragon Quest XI 会被处理为 Dragon Quest。
  • 类似宝可梦系列这种同时发售多版本的情况,只选择其中一个版本。比如 Pokemon Red / Green / Blue Version 只会保留 Pokemon Red。
  • 最后会忽略所有的 stop words 和标点符号,只保留名词动词形容词副词等词性。比如 Call of Duty 会被处理为 Call Duty。

(图2)不同长度游戏标题的比例岁年份的变化

(图1)游戏标题长度分布

(图2)不同长度游戏标题的比例岁年份的变化

(图1)游戏标题长度分布

(图2)不同长度游戏标题的比例岁年份的变化

1 / 2
我们可以注意到,长度为二的游戏标题在整体数量上是最多的。可能正因为如此才容易产生「好游戏的标题都是两个单词」的错觉,而实际上很有可能差游戏的标题也是两个单词的情况居多。
此外,通过对比历年的游戏标题长度分布可以看到,在电子游戏发展的初期出现了很多单词标题,这种现象随着时间逐渐减少,但是在近期似乎有增加的趋势。我能想到的原因是,在蛮荒时代游戏主题尚未被充分开发,开发者可以直接使用一个大的主题来命名,比如「baseball」「football」「love」等等。随着技术的发展,开发者可以用游戏来表达更加复杂且细分的主题,因此标题长度会偏向2~4个单词。

游戏评分

(图3)不同评分的游戏数量分布

(图3)不同评分的游戏数量分布

原数据中包括了媒体评分(Critic_Score)和用户评分(User_Score),但并非所有的游戏都有评分数据。为了同时反应两个评分,在这次的分析中使用了二者的平均值,并在必要时做四舍五入处理。在只有媒体评分或只有用户评分的情况下则直接使用此评分。我们可以把9分以上(包括9分)的游戏视作P「神作游戏」。

二者的相关性

我们可以从两个角度去讨论二者的相关性。
  1. 高评分游戏的标题更容易是两个单词吗?
  2. 标题是两个单词的游戏更容易得到高分吗?
(图4)不同评分的游戏标题长度分布

(图4)不同评分的游戏标题长度分布

这张图表显示了游戏评分和标题长度的分布关系。注意由于这里的评分是媒体评分和玩家评分的均值,为了便于查看我对分数进行了四舍五入取整处理。我们可以注意到几个事实
  • 标题长度为2的游戏始终是占大多数的,这点在前面的数据也有所反映。
  • 整体上低分游戏中标题长度为2的游戏占比反而比较高,当然者很可能是因为5分以下的游戏在此数据中数量较小导致的分布偏差。
  • 9分左右的游戏确实标题长度为 2 的游戏占比要略高一些。
(图5)不同标题长度中好游戏的占比

(图5)不同标题长度中好游戏的占比

如果我们把游戏评分均值高于 9 分的游戏视作好游戏(上图中的红色),就可以得到上图的分布。从分布中可以看到,标题长度为 2 的游戏中好游戏比例确实要略高一些,但这种现象并不显著。对不同标题长度的游戏,我们可以更细化得去看它们评分的最大值,最小值和中位数。(其实 1/4 和 3/4 位数值分布也很有用但是 Google Sheet 绘制有点麻烦这里就略过了)
(图6)游戏标题长度和评分分布的关系

(图6)游戏标题长度和评分分布的关系

首先值得注意的是,游戏标题长度越长似乎游戏评分越趋同,即最高评分和最低评分的差距越小。这很大程度上是游戏数量的下降带来的结果。从中位数来看,标题长度在 5 以内的游戏差别都不是很大,也就是说这部分游戏的平均水准基本是一致的。但从标题长度大于 4 开始,游戏就几乎没有满分游戏了。
此外,虽然在前面的分析中我们提到标题长度为 2 的游戏中「好游戏」占比是最高的,但从上图中我们同事也可能看到,标题长度为 2 的游戏中的最低分也是最低的。因此从另一个角度我们也可以说,最烂的游戏标题长度也是 2。

总结

从这篇短文的数据中我们基本上可以得到这些结论。首先是游戏标题在整体上偏向于两个单词的长度。这其实反映出我们对语言的使用习惯。当我们描述一个主题的时候,最常用的就是偏正短语,即「什么什么的什么」这种说法。如果前面的修饰过多,游戏标题名字会变得过长而拗口的同时,也会将主题限定在一个过于狭窄的范围。这种情况应该是不利于游戏的传播的(但也有轻小说命名法)。
游戏标题长度和游戏评分确实有一些相关性。比如评分在 9 分左右的游戏中游戏标题长度为 2 的游戏占比要高一些(图4),标题长度为 2 的游戏中好游戏的占比也要高一些(图5)。再加上标题长度为 2 的游戏本来就比较场景,因此在回想好游戏的时候首先就会发现这些游戏标题都是两个单词。也许西蒙的疑问就来自于这种相关性。但从这个数据集中可以看出,这种相关性很难说有多强。
就这样。

© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com