6月13日,今天全球的AI领域有两则重大消息,首先是期待已久的最强文生图大模型——Stable Diffusion 3正式开源,目前已经上线huggingface,官方号称是有史以来最先进的开源模型!第二则消息则是媲美甚至超越Sora的大模型出炉——Dream Machine,现也已经免费提供测试!
文生图大模型SD3
今年2月份,在OpenAI推出视频生成大模型Sora后,Stability AI公开了最强大的文生图模型Stable Diffusion 3,采用与Sora相同的diffusion transformer架构,与之前的版本相比,SD3在生成图像的质量上有了显著提升。
首先是解决之前SD很难绘制人物手部的问题,此前市面上很多AI生成的小姐姐都不会放出手指部分,现在SD3绘制人物的手部和面部都会更加惊喜,足以生成以假乱真的图片。
SD3 Medium能够有效地整合文字元素,提高图像生成的准确性和相关性,同时还可以在消费级显卡上运行,没有专业背景的用户也能轻松使用,目前也可以直接用ComfyUI在本地部署SD3。
视频生成Luma AI
Luma AI发布了名为Dream Machine的视频生成模型,能够从文本和图像中生成高质量的视频,表现出了真实的摄像机运动轨迹、自然的光影变化和良好的一致性,许多人已经将Dream Machine评级为Sora最大的竞争对手!
Dream Machine能在120秒内生成120帧的视频,相当于5秒的流畅动画,与市场上其他视频生成模型不同,Dream Machine 向公众提供免费试用,免费用户每月有30次的生成额度!大量用户涌入导致Luma AI的官网服务器服务中断,但目前已经有所缓解。
Luma AI成立于2021年,专注于利用人工智能技术进行3D内容的生成和计算机视觉领域的创新,Luma AI的明星产品之一是文本转3D模型的Genie 1.0,能够在10秒内根据文本描述生成多种格式的3D模型,在3D建模领域具有跨时代的意义。
目前Dream Machine也有一些明显的问题,比如DM生成速度快但是难以解决拍摄角度问题,很多时候无法准确理解Prompt中关于动作的指令,专业创作者在勾选 "Enhance prompt" 功能后,人物动作和光影变化更加自然。
Luma AI现在创始人兼CTO为余思贤,毕业于加州大学伯克利分校,获得了英伟达在内的两轮投资,估值达到2-3亿美元,首席科学家为宋佳铭,毕业于清华和斯坦福大学,拒绝了清华姚班的教职邀请,选择加入英伟达,随后离职创业加入Luma AI,主要领导基础模型研究团队。