近日,Decart AI推出的AI我的世界模型Oasis迅速在网络上走红。一些用Oasis生成的大约四五分钟的MC游玩视频获得了几十万的播放量,引发了广泛的讨论,连籽岷也发布了对它的介绍视频。
从心率看得出来岷叔是真激动了
Oasis生成的MC世界,大致上看起来是这样的:
oasis生成的诡异生物
不停变化的放置物
Oasis提供360p、20FPS、单次限时5分钟的可交互游戏体验,玩家可以在其中完成行走、挖掘、使用物品等所有的MC操作。支持这一切的并非什么游戏引擎,而只是一个AI模型。
从上面的演示可以看出,这个由人工智能生成的游戏世界并不稳定,虽然大体上模拟出了MC的游戏机制,但每分每秒都在发生诡异的变化,为本就有些微恐色彩的MC增添了些许猎奇意味。这个AI还有着无记忆性的特点,不会记住离开画面的内容,稍微改变一下视角,便可能来到一个完全不同的世界。笔者在游玩时甚至眼睁睁地看着水面变成了冰面,而后又从万米高空直坠而下,简直令人头晕目眩。
Oasis网址:OASIS(手机也可以体验)
“是非成败转头空,青山依旧在,几度夕阳红?”
或许正是因为这种不确定性,尽管画质差强人意,Oasis还是吸引了大量玩家的关注。同时,非线性的游玩体验也对玩家的大脑提出了强劲挑战。有人笑称,“AI首次拥有了对人类进行精神污染的能力”。不少玩家表示体验后晕了3D,有严重者甚至不自觉地把游戏的生成逻辑带到了现实中,总感觉一转头身边的事物就要发生变化,眼前的文字下一秒就要开始扭曲,引发了相当不快的“现实解离”体验。正是因此Decart才限制单次游玩时间不超过五分钟,以防对玩家造成严重的精神伤害。不过,一般来说这种感觉缓个十几分钟就会消散,敏感人群则可能需要更长时间来恢复。
或许你会对这个奇特的模型的原理感到好奇。据开发者介绍,Oasis使用OpenAI收集的开源Minecraft视频数据集进行训练。模型依托ChatGPT同款Transformer架构,分为基于视觉变换器(Vision Transformer, ViT)的变分自编码器(Variational Autoencoder, VAE)和扩散变换器(Diffusion Transformer, DiT)两部分。
官网提供的结构图
图像先是经由ViT-VAE编码器的初步处理,再输入给DiT模块,DiT根据玩家的键鼠输入和模型训练所得预测画面会如何变化,生成新的图像数据,最后传至ViT-VAE解码器得到预测的下一帧图像。
此外Oasis还引入了动态噪声来消除画面中小缺陷经过长时间后造成的复合错误,这也是为什么在游玩过程中不时会看到一些模糊不清的线条的原因。
在运行上,Oasis使用了合作开发公司Etched研发的AI芯片Sohu。Sohu专为加速Transformer架构的人工智能模型设计,在该方面的性能远超英伟达的H100芯片。得益于此,Oasis支持大量玩家同时在线游玩。
官网发布的性能对比
Oasis无疑是在Google的GameNGen之后生成式AI在游戏领域的又一重大进展。然而我们不禁要问,生成式的游戏,真的有未来吗?
就Oasis本身而言,它的游戏体验并不好。画质低、帧数少,这些问题在未来或许都能被解决。真正的问题出在它本身的Transformer架构上。
本质上,Transformer擅长的是预测,而非精确的计算和建模,强如ChatGPT也要犯9.9<9.11的笑话。要克服潜在的幻觉问题使AI生成的游戏真正可玩,可能还有好长一段路要走。或许Oasis的开发者有信心解决这些问题,也有可能开发Oasis只是一种商业策略,通过生成式游戏的噱头吸引人们的关注,为sohu芯片赢得更多的支持(要知道,Etched可是向英伟达发起挑战的存在)。
当然,人工智能的发展日新月异,谁也不敢断言AI就不能克服缺陷,生成真正的游戏。
不过,Oasis生成的MC世界的风格倒是让我想起了一类游戏。没错,就是怪核(Weirdcore)风格的游戏。
怪核是近些年来新兴的一种美学风格。它通常使用低分辨率的图片、失真的文字、复古电脑图形、诡异的几何构图、和模糊的场景来营造一种超现实和异化的感觉,旨在引发观众的不确定感和一种仿佛处于梦境、熟悉但又陌生的空间中的体验。典型的例子就是以后室(backrooms)为题材的游戏。
backrooms
在这类游戏中,精密计算的需求大大减弱,重要的是为玩家提供奇特的感受。这时,Oasis缺乏逻辑、风格诡异的特点反而变成了优势。只要稍微增加一点记忆功能,辅以大量的数据训练,生成式AI没准真能做出别具一格的怪核游戏。
至于未来生成式AI究竟会带给我们什么样的游戏体验,就让我们拭目以待吧。