6月13日,今天全球的AI領域有兩則重大消息,首先是期待已久的最強文生圖大模型——Stable Diffusion 3正式開源,目前已經上線huggingface,官方號稱是有史以來最先進的開源模型!第二則消息則是媲美甚至超越Sora的大模型出爐——Dream Machine,現也已經免費提供測試!
文生圖大模型SD3
今年2月份,在OpenAI推出視頻生成大模型Sora後,Stability AI公開了最強大的文生圖模型Stable Diffusion 3,採用與Sora相同的diffusion transformer架構,與之前的版本相比,SD3在生成圖像的質量上有了顯著提升。
首先是解決之前SD很難繪製人物手部的問題,此前市面上很多AI生成的小姐姐都不會放出手指部分,現在SD3繪製人物的手部和麵部都會更加驚喜,足以生成以假亂真的圖片。
SD3 Medium能夠有效地整合文字元素,提高圖像生成的準確性和相關性,同時還可以在消費級顯卡上運行,沒有專業背景的用戶也能輕鬆使用,目前也可以直接用ComfyUI在本地部署SD3。
視頻生成Luma AI
Luma AI發佈了名為Dream Machine的視頻生成模型,能夠從文本和圖像中生成高質量的視頻,表現出了真實的攝像機運動軌跡、自然的光影變化和良好的一致性,許多人已經將Dream Machine評級為Sora最大的競爭對手!
Dream Machine能在120秒內生成120幀的視頻,相當於5秒的流暢動畫,與市場上其他視頻生成模型不同,Dream Machine 向公眾提供免費試用,免費用戶每月有30次的生成額度!大量用戶湧入導致Luma AI的官網服務器服務中斷,但目前已經有所緩解。
Luma AI成立於2021年,專注於利用人工智能技術進行3D內容的生成和計算機視覺領域的創新,Luma AI的明星產品之一是文本轉3D模型的Genie 1.0,能夠在10秒內根據文本描述生成多種格式的3D模型,在3D建模領域具有跨時代的意義。
目前Dream Machine也有一些明顯的問題,比如DM生成速度快但是難以解決拍攝角度問題,很多時候無法準確理解Prompt中關於動作的指令,專業創作者在勾選 "Enhance prompt" 功能後,人物動作和光影變化更加自然。
Luma AI現在創始人兼CTO為餘思賢,畢業於加州大學伯克利分校,獲得了英偉達在內的兩輪投資,估值達到2-3億美元,首席科學家為宋佳銘,畢業於清華和斯坦福大學,拒絕了清華姚班的教職邀請,選擇加入英偉達,隨後離職創業加入Luma AI,主要領導基礎模型研究團隊。