“牛子精靈”和“貓貓”氾濫,Steam評測系統真的科學嗎?


3樓貓 發佈時間:2024-01-28 19:32:30 作者:Novaloasuka Language

本文從我的視頻改編而來:
不知道你是否在Steam評論區看到這樣的垃圾評論有多久了,他們用符號畫出貓貓、牛子精靈或者坤坤的樣子,告訴你,如果點贊,貓貓就會張嘴,坤坤就會跳舞,你的牛子就會長一釐米。信以為真的我給這些評論點了贊,結果貓貓沒有張嘴,坤坤沒有跳舞,掏出捲尺量了量,好像也沒有長一釐米。
這種半娛樂半詐騙的評論在評論區裡大量氾濫,把很多真正的遊戲評測給擠了下去。這還已經是評論區已經被清理過的結果,在更早以前,Steam的評論區是詐騙廣告的天堂,各種宣稱送你皮膚的鏈接,點進去你的賬號就會完蛋。
既然如此,那麼Steam為什麼要有遊戲評測呢?Steam的遊戲評分又是否和大家想象的那樣科學呢?我覺得Tim Sweeney可能至今都沒有想明白,自己買了這麼多獨佔,送了這麼多遊戲,為什麼PC玩家還是選擇那個折扣沒自己高,UI沒自己好,還會抽30%平臺稅的小甜甜。其原因或許也很簡單:Steam讓玩家,而不是遊戲開發者,擁有更好的平臺體驗
Tim做虛幻引擎出身,最開始的工作是B to B,Epic Games Store或許對開發者而言很友好,但對玩家而言未必。而G胖在微軟做的是面向個人用戶的Windows 95,本質上是B to C,他或許更懂玩家需要遊戲平臺去做什麼。
Steam評測就是最好的例子,你似乎很難看見在其他遊戲平臺上“用戶評測”這個板塊像Steam一樣被放到如此重要的位置。Epic Games至今似乎沒有用戶評測,只有一個打分系統;PlayStation Store也沒有用戶評測,當然我也很難想象如何在PS5上用手柄流暢地打漢字;Xbox似乎有一個用戶評測板塊,但願意去寫評測的人寥寥無幾,而且似乎這個板塊的網絡還經常出問題;甚至連App Store裡頭遊戲的評論區,點進去也是好幾年前的老舊評論。
Epic是沒有評論區的

Epic是沒有評論區的

似乎只有Steam把用戶評測放到了一個極其重要的位置上,讓遊戲的評價能夠掛到遊戲商店頁面的旁邊,左右遊戲的銷量,甚至讓一些傲慢的開發者低下他們高傲的頭,去更加坦誠地和玩家直接對話。可以說,在Steam平臺,玩家掌握著在其他平臺所難以享有的權力,這或許是它直到今天還是遊戲平臺界毫無爭議的一哥的原因。但是,這能代表Steam的評測系統真的完美無瑕,如同我們想象的那樣科學嗎?
首先讓各位猜一下,Steam上評分最高的遊戲到底是哪一個?
如果按照Metacritic Top 250的排名來看,拋開並沒有在Steam上登陸的《薩爾達傳說:時之笛》和《劍魂》,Steam上評分最高的遊戲應該是GTA IV,再然後是大表哥2,GTA V,GTA III,生化奇兵,原版生化危機4,博德之門3。
但我們真的打開Steam,打開所有遊戲,把排序依據變成用戶評測後,你會驚訝地發現,在Steam上正面評價超過99%,登頂遊戲之巔的那個遊戲,是柚子社的《千戀*萬花》
當然,這不代表千戀萬花不是一個好遊戲,因為就算我躺在棺材裡,釘死了,也要在墓裡用腐朽的聲帶喊出,叢雨綾是我老婆(滴——)
但是問題在於,Steam的評測系統似乎認為,千戀萬花要比上述所講的一系列遊戲都要好,這顯然是並不符合大家的直覺,甚至有點荒謬的。已知《千戀萬花》是一個好遊戲,《GTA IV》也是一個好遊戲,在大眾的普遍認知裡《GTA IV》的評分要高於《千戀萬花》,但Steam的評分系統卻認為《千戀萬花》要遠高於《GTA IV》,那麼只能說明,Steam的這個遊戲評測系統並不科學
事實上,Steam評分最高的十款遊戲裡,有九款是獨立遊戲,其中有五款是可愛的貓貓,只能說貓好,人好不好就不一定了。它們和我們傳統認知的那些Top List Games似乎並不沾邊。而第十名甚至不是遊戲,而是Wallpaper Engine,想必大家都知道這玩意到底是用來幹啥的。
這就導致了Steam評測系統目前存在的最大問題,那就是在某種程度上,Steam遊戲的用戶評測結果似乎和遊戲本身的質量關聯不大,使得質量高的遊戲可能默默無聞,能夠給予用戶廉價感官刺激的遊戲反而能夠佔據評分的最高位,而我們前面說過,Steam的用戶評測被有意設計放到了能夠左右用戶購買慾甚至左右遊戲銷量的位置上,這使得絕大多數的Steam高分遊戲是“擦邊遊戲”而不是“好遊戲”,爽可能很爽,但這樣的評測科學嗎?未必。
回到之前的話題,我們打開Steam評分第一的《千戀萬花》,會發現評分的人總共在一萬六千人左右,而《博德之門3》的總評價人數在四十八萬上下。很難想象這個世界上會有給千戀萬花和博德之門3打差評的人,但大千世界無奇不有,總會有一些人因為各種各樣的原因。甚至純粹是因為無聊,而故意給一款好遊戲打差評。
而毫無疑問,相比於《千戀萬花》而言,更被人所熟知的《博德之門3》自然也會擁有更高比例的差評。這個事實造成的結果是,儘管都是“好評如潮”,但一萬六千人評測的《千戀萬花》好評率是99%,而四十八萬四千人評測的《博德之門3》好評率是96%。而這個在城堡裡找貓貓的99%好評的小遊戲只有兩千多個人評價。我們可以得出一個大膽的結論,V社極其有可能只是簡單地將好評數量除以總評測數量,然後從高到低簡單地排序,便讓《千戀萬花》 成為了第一。
這個問題甚至在Steam評測的評測裡也大量氾濫,Steam的評論區採取了相當簡單粗暴的算法,點贊越多的評論上去展示順序就越高,自然貓貓們就往上跑了。而這個機制早已被開發商充分利用,來讓自己的遊戲獲得不與其作品質量相符的評價。

一個比較常用的方法是在短時間內發放大量的遊戲Key,要求收到Key的玩家在Steam上寫好評,就算只有20%-30%的玩家最終會在Steam上為遊戲打好評,遊戲的評價還是能夠快速往上漲,以至於能夠擠下其他更好的遊戲,在商店頁面獲得優先展示。而有時,遊戲開發商甚至還要面對玩家狂風暴雨般的差評,讓“差評轟炸”變成了所有玩家開發商都被迫要學習和頭疼的一件大事
剛剛過去的2023年毫無疑問是個遊戲大年,而遊戲界也同時憋了好幾個“大”的。動視暴雪分別祭出了決勝時刻19和鬥陣特攻2這倆兄弟,一度佔據了整個Steam差評榜的第一第二位,這倆遊戲儼然變成了整個Steam平臺上最垃圾的遊戲。
按理說,全世界只有不到10%的人喜歡的多人在線射擊遊戲,只要你上線,應該就能輕易躋身五百強,但直到今天,大多數人都以為涼涼的鬥陣特攻,匹配速度反而比一代的時候還更快了。
鬥陣特攻2剛出的時候,幾乎沒有任何人看好,就連我這種前鐵血暴白,都出了一期二十分鐘的視頻來罵它。但當這個遊戲在去年8月11日上線Steam的時候,絕大部分剛上線的問題已經解決,整個遊戲完成度已經提升了很多了。事實上,根據總監Aaron Keller的說法,鬥陣特攻2剛上線到去年8月11日,只能算作“Early Access”模式,而8月11日上線Steam以後的版本才算正式版,是一個質量很高,能夠吸引很多新玩家,甚至能讓人忘記沒有計分板、沒有集體復活、切換英雄就得重新攢能量的鬥陣特攻1的版本。還讓我這個一代遺老成功放下了偏見,重新真香了起來。
但遊戲在Steam上線後,鬥陣特攻2受到了Steam有史以來最慘烈的差評轟炸,超越了蒸蒸日上的三國殺,成了整個Steam的倒數第一。同樣的情況出現在了COD19上。我敢說,現如今沒有一款遊戲的槍械設計手感能夠比得過2023年的決勝時刻,但依舊不妨礙玩家給予這款三年磨一劍的IW大作狠狠地差評。
是什麼讓玩家對這倆作品有這麼大怨氣呢?答案可能很複雜。對於鬥陣特攻2而言,在它在Steam上線前,玩家經歷了一代末期便秘一般的超緩慢更新,動視暴雪性醜聞事件以及牽扯出來的麥克雷改名事件,姐夫疑似因為辦公室內鬥的離職,對LGBT+內容的寬容和二代本身災難一般的遊戲首發,早已怒氣滿滿。
Steam評論區的開放給了玩家發洩對這個遊戲憤怒的渠道,進而對這個遊戲發起瞭如潮般的差評。有意思的是,在狂歡結束,把鬥陣特攻2送上差評如潮的王座之後,這個遊戲的熱度和口碑反而回暖了,甚至還在日本和沙特阿拉伯吸引了一大波新玩家。
而決勝時刻19就更加複雜了,自黑色行動4之後,決勝時刻退出了Steam平臺,PC端只能在戰網上玩到接下來的16、17和18。2022年發售的19是時隔多年以後這個系列在Steam上的首次亮相,並且還標誌著這個全球最火爆的射擊遊戲徹底地倒向了商業化,讓19變成了需要400多塊才能入場的超華麗槍械展覽店,各種聯動、炒作層出不窮,但玩家本身的消費能力卻沒有在2022年變高。彷彿過去穿著泛黃純色T,跟你苦哈哈在馬路牙子旁邊抽菸的哥們,轉頭一變,成為了穿著Versace春季的新品成衣,Ami Paris的手工褲子,揹著Feritag的郵差包,戴著Gentle Monster的太陽鏡,踩著Balenciaga的老爹鞋一邊在上海外灘Citywalk一邊跟你聊Kanye West的音樂靈魂還在試圖騙你錢的裝b潮流哥,就差把“給我送錢”寫在了臉上,這能不叫人火大?
再加上決勝時刻19還陷入了玩法和地圖設計的困境上,取消了在前作中相當重要的“滑鏟取消”,減緩了人物的移動動能,還創造出了KV莫洛MX守護者毒氣彈龍息彈這些抽象勞什子,玩家只能回敬它一個大大的差評。而諸如金剛、咕嚕、紅霞島還有浩劫前夕這些2023年真正的電子辣雞,真正的“反向大作”,在Steam上的評分反倒還沒動視暴雪的這倆難兄難弟低。這似乎表明,Steam的評測系統,即便是在負面反饋上,很可能依舊沒有辦法科學地展示結果,甚至很可能和整個遊戲的質量都沒有什麼關係。
那麼,決定Steam遊戲評分好壞的因素究竟是什麼呢?現居加拿大,在華為公司上班的Dayi Lin也很關注這個問題。他和加拿大女王大學合作,專門就現今影響Steam評測分數的因素進行了研究,結果發現,Steam評測好壞和遊戲本身的質量幾乎沒有太多的聯繫。和評分呈強正相關的,反而是遊戲的價格、遊戲的設計和遊戲是否能夠給玩家帶來視覺衝擊力。
Dayi Lin團隊使用了一種名為Coleman Liau Readability Index的公式,來對典型的遊戲評測進行審查。這是一種1975年出現的語言學分析公式,用來客觀地表現一段文字中所存在的可讀信息量。一段文本的可讀性越高,信息量越少,CLI指數也就越低,反之亦然。
很顯然,一段評論的CLI越高,越能夠幫助玩家決定是否購買這款遊戲,還能幫助開發者去更好地修改遊戲。那麼Steam評測的算法應該更趨向於推薦高CLI的文本。然而Dayi Lin團隊對眾多Steam評論區的內容進行數據整理和分類後發現,有71%的Steam評論是沒有任何意義的,他們或是簡單的一句話評測,或是在玩一些和遊戲沒有任何關係的梗,甚至還可能具有欺騙性。
這些人給出的好壞指標沒有任何意義,但卻佔據著整個Steam絕大多數遊戲的評論首頁,左右著一個遊戲旁邊評價的好壞,甚至還主導著玩家的購買權。前面也說過,甚至已經有開發者通過各種方式讓自己的遊戲獲得更多不正當來源的好評。你很可能已經被不科學的Steam評測系統誤導,被開發商可能的詐騙手段欺騙,花了不必要的錢,買了根本不想玩,但卻“好評如潮”的遊戲。這,便是目前Steam評論區裡出現的最大的現實問題。
那麼,應當如何解決目前的問題,讓Steam的評論區算法變得更加科學呢?其實,已經有相當多的人注意到了這個問題,並且作出了他們自己的嘗試。2009年,芝加哥大學的一位叫Evan Miller的PhD在網上寫了一篇叫做《如何不按平均評分排序》的文章,詳細講述了包括Steam在內的一眾網站的評分排名為什麼有問題。
在Steam的平均評分算法下,如果遊戲A有2個好評和0個差評,遊戲B有100個好評和2個差評,那麼就算更多人玩遊戲B,並且絕大多數人都給了它好評,Steam依舊會認為遊戲A要比遊戲B要好。Miller認為,正確的做法是使用一種名為威爾遜(Edwin B. Wilson)置信區間的方式,計算出一個遊戲好評比例在置信區間內的下限,從而賦予這個遊戲可靠的排名分。
但是,如果要通過這個方法來計算遊戲的排名,需要建立一個龐大的SQL數據庫,結果也並不是特別準確。直到2018年,一位Reddit網友注意到了Miller的論文,並且改進了他的算法。這位名叫“tornmandate”的哥們使用了一種名為“拉普拉斯平滑”的方式,使得人們可以不用通過建立數據庫,甚至不用計算平方根的方式來建立一個更為準確的排名。
這個算法被全球最大的Steam數據監測網站SteamDB注意到了,把它運用到了自己單獨建立的排名系統裡。在這個排名裡,原本排名第一的《千戀萬花》的好評率從99%降到了96%左右,而《傳送門2》《星露穀物語》《人類遊樂場》《哈迪斯》《吸血鬼倖存者》《泰拉瑞亞》《環世界》《半條命Alyx》《求生之路2》和最近爆火的《致命公司》則變成了新的前十名。而在差評方面,倒數第一又變成了《三國殺》,鬥陣特攻2進步到了倒數第5,雖然還是沒打過倒數第7的《浩劫前夕》,但依舊可喜可賀。至於COD19,早就已經隨著20的上線變成了DLC,美美地在排行榜裡隱身了,論耍小聰明,還得是考迪克。
雖然這個算法沒法應用到評論區裡,讓更好的評論能夠排到更前面,但至少在一定程度上,讓Steam榜單和我們挑選的遊戲變得更加科學了。
不過,我們也可以注意到,更換排名算法僅僅只是讓Steam的排名發生了一些變化,其僅僅只是一個插件,沒有辦法讓評論區那些討厭的貓貓和坤坤徹底絕跡。那麼,有沒有什麼辦法徹底改變Steam,讓整個評測系統外加評論區都煥然一新呢?一個比較有意思的討論已經在國外一些社區裡蔓延,那就是把Steam的好評差評改成“五星打分制”
事實上,絕大部分評分網站,甚至包括一些圍繞著Steam開發的遊戲社區APP,都已經悄悄地把評分系統改成了五星制,只有Steam一家還在堅持著本心,使用著他的“好評”和“差評”。隨著遊戲的發展,我們越來越難以用“好”和“差”來壟斷地評判一款遊戲
例如,去年TGA年度最佳遊戲提名裡,有至少三款遊戲至今都在面臨著嚴重的優化問題。如果給博德之門3,王國之淚和Alan Wake II籠統地評為“好評”,認為他們是完美無缺的遊戲,就是對這些客觀存在的優化問題本身的無視,但如果就因為一些優化問題就給這三款遊戲送上“差評”,似乎又有點過於極端。
再加上還有一眾長短板都非常明顯的獨立遊戲,育碧的3A罐頭遊戲,相對於槍車球而言比較小眾的4X、模擬經營類遊戲,以及像Remedy這樣本身就非常挑受眾的遊戲,評價起來需要考慮的因素都非常複雜,不是簡單的好差評就能覆蓋的。雖然現如今要麼打五星要麼打一星的極端評論已經成為常態,“C”形打分作品早已到處可見。但至少,五星評分能夠更尊重那些想要更客觀評價遊戲的人。
然而這樣的修改意見也有反對的聲音。反對者認為,Steam是商品購物中心,而不是Metacritic這樣的嚴肅評測機構,本質上是一個賣遊戲的,不應當更加嚴肅化。再者,Steam已經累積了巨量的基於好評差評體系的數據,用戶早就已經養成了好評差評的習慣,怎麼把這些數據轉換成五星制,同時也讓用戶習慣新的評分系統也是一個實際的大問題。但與此同時,大量的垃圾信息也客觀地存在於Steam評論區之中,已經成為了Steam目前生態裡最迫切需要解決的問題。
面對這樣的難題,是簡單的過濾評論,修改底層評分算法,還是乾脆直接不破不立,打破重來,建立一套更科學的評分體系,各位朋友們又是怎麼看的呢?歡迎大家在評論區發表自己的看法。

© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com