在《聊聊我是什麼貨Vol3》中西蒙提到自己的選題被眾人批判,這個選題是:
為什麼神作遊戲的標題都是兩個詞?
這確實是一個奇怪的選題。咋看之下這個選題似乎沒什麼意義,因為你可以隨口說出一些反例(比如《超級馬力歐兄弟》),但有時候直覺和事實並不相符,畢竟一個人能列出的例子終歸是少數,因此最好的辦法是通過統計數據來驗證。在 Kaggle 中有一個公開數據集剛好可以用來做一些分析,也許可以回答這個問題。
注:此數據抓取於 vgchartz.com,實效性截止至2020年
遊戲標題長度
在進行分析之前,這個選題中有兩個定義需要明確:「兩個詞的標題」和「神作遊戲」。「兩個詞的標題」是中文的描述,但實際上英文語境中很少真的有兩個單詞的遊戲。比如「The last of US」雖然有四個單詞, 無論是「美國末日」還是「最後的生還者」的譯名,都符合「兩個單詞的標題」的印象。為了更合理地計算標題長度,我對數據中的遊戲標題做了以下預處理:
- 只保留主標題,忽略副標題。這裡粗暴地刪除標題中冒號及之後的內容,比如 Dragon Quest XI: Echoes of an Elusive Age 會被處理為 Dragon Quest XI。
- 忽略標題末尾的標號,包括阿拉伯數字和羅馬數字,因此 Dragon Quest XI 會被處理為 Dragon Quest。
- 類似寶可夢繫列這種同時發售多版本的情況,只選擇其中一個版本。比如 Pokemon Red / Green / Blue Version 只會保留 Pokemon Red。
- 最後會忽略所有的 stop words 和標點符號,只保留名詞動詞形容詞副詞等詞性。比如 Call of Duty 會被處理為 Call Duty。
我們可以注意到,長度為二的遊戲標題在整體數量上是最多的。可能正因為如此才容易產生「好遊戲的標題都是兩個單詞」的錯覺,而實際上很有可能差遊戲的標題也是兩個單詞的情況居多。
此外,通過對比歷年的遊戲標題長度分佈可以看到,在電子遊戲發展的初期出現了很多單詞標題,這種現象隨著時間逐漸減少,但是在近期似乎有增加的趨勢。我能想到的原因是,在蠻荒時代遊戲主題尚未被充分開發,開發者可以直接使用一個大的主題來命名,比如「baseball」「football」「love」等等。隨著技術的發展,開發者可以用遊戲來表達更加複雜且細分的主題,因此標題長度會偏向2~4個單詞。
遊戲評分
(圖3)不同評分的遊戲數量分佈
原數據中包括了媒體評分(Critic_Score)和用戶評分(User_Score),但並非所有的遊戲都有評分數據。為了同時反應兩個評分,在這次的分析中使用了二者的平均值,並在必要時做四捨五入處理。在只有媒體評分或只有用戶評分的情況下則直接使用此評分。我們可以把9分以上(包括9分)的遊戲視作P「神作遊戲」。
二者的相關性
我們可以從兩個角度去討論二者的相關性。
- 高評分遊戲的標題更容易是兩個單詞嗎?
- 標題是兩個單詞的遊戲更容易得到高分嗎?
(圖4)不同評分的遊戲標題長度分佈
這張圖表顯示了遊戲評分和標題長度的分佈關係。注意由於這裡的評分是媒體評分和玩家評分的均值,為了便於查看我對分數進行了四捨五入取整處理。我們可以注意到幾個事實
- 標題長度為2的遊戲始終是佔大多數的,這點在前面的數據也有所反映。
- 整體上低分遊戲中標題長度為2的遊戲佔比反而比較高,當然者很可能是因為5分以下的遊戲在此數據中數量較小導致的分佈偏差。
- 9分左右的遊戲確實標題長度為 2 的遊戲佔比要略高一些。
(圖5)不同標題長度中好遊戲的佔比
如果我們把遊戲評分均值高於 9 分的遊戲視作好遊戲(上圖中的紅色),就可以得到上圖的分佈。從分佈中可以看到,標題長度為 2 的遊戲中好遊戲比例確實要略高一些,但這種現象並不顯著。對不同標題長度的遊戲,我們可以更細化得去看它們評分的最大值,最小值和中位數。(其實 1/4 和 3/4 位數值分佈也很有用但是 Google Sheet 繪製有點麻煩這裡就略過了)
(圖6)遊戲標題長度和評分分佈的關係
首先值得注意的是,遊戲標題長度越長似乎遊戲評分越趨同,即最高評分和最低評分的差距越小。這很大程度上是遊戲數量的下降帶來的結果。從中位數來看,標題長度在 5 以內的遊戲差別都不是很大,也就是說這部分遊戲的平均水準基本是一致的。但從標題長度大於 4 開始,遊戲就幾乎沒有滿分遊戲了。
此外,雖然在前面的分析中我們提到標題長度為 2 的遊戲中「好遊戲」佔比是最高的,但從上圖中我們同事也可能看到,標題長度為 2 的遊戲中的最低分也是最低的。因此從另一個角度我們也可以說,最爛的遊戲標題長度也是 2。
總結
從這篇短文的數據中我們基本上可以得到這些結論。首先是遊戲標題在整體上偏向於兩個單詞的長度。這其實反映出我們對語言的使用習慣。當我們描述一個主題的時候,最常用的就是偏正短語,即「什麼什麼的什麼」這種說法。如果前面的修飾過多,遊戲標題名字會變得過長而拗口的同時,也會將主題限定在一個過於狹窄的範圍。這種情況應該是不利於遊戲的傳播的(但也有輕小說命名法)。
遊戲標題長度和遊戲評分確實有一些相關性。比如評分在 9 分左右的遊戲中游戲標題長度為 2 的遊戲佔比要高一些(圖4),標題長度為 2 的遊戲中好遊戲的佔比也要高一些(圖5)。再加上標題長度為 2 的遊戲本來就比較場景,因此在回想好遊戲的時候首先就會發現這些遊戲標題都是兩個單詞。也許西蒙的疑問就來自於這種相關性。但從這個數據集中可以看出,這種相關性很難說有多強。
就這樣。