通過一些算法審查玩家是否認真答題,如果認真答題則會獲得積分,積分提高等級,等級高的用戶每日答題結束後可以獲得更多的獎勵,但是這樣子會不會代價也很大?
假設三國殺為例,五級用戶連續三日答題獲得一個招募令,成本大概600元寶,給遊卡提供0.5r(可能);四級用戶連續三日答題獲得一個雁翎甲,0.2r;三級用戶連續三日答題獲得6張卡(0.1r);二級用戶連續三日答題獲得3張卡(0.05r);一級用戶連續三日獲得一張卡(0.0167r)
其中可以把卡折算為期望,改為送福袋,每天答題送對應期望的福袋
這麼算貌似成本也不低?10000用戶,一天就需要5000r,5000*5=25000條數據,人工的話,一小時標四十條,一個月的話40*8*6*4=7680(條數據),工資5000,這麼算貌似還行?而且這是算的全部的五級用戶,而且這個還包括了之前用戶每日簽到(當黑奴)攢的積分
但是這樣子是不是又有一個難題,哪裡來這麼多的數據,讓人工判斷輸出的文本的rlhf貌似也不會每天生成這麼多數據讓人工判斷,難度高的數據譬如數學、代碼等普通的遊戲玩家判別也會存在著難度