“你知道嗎?AI的智能水平已經逼近甚至超越了人類的極限。”
今天凌晨2點,OpenAI的12天直播迎來了最高潮——o3模型的震撼發佈。這場發佈會不僅標誌著AI技術的又一次飛躍,也宣告了OpenAI在通往通用人工智能(AGI)道路上的無可匹敵。
為何直接跳過o2?
有趣的是,OpenAI此次直接跳過了“o2”版本,原因竟是為了避免與英國電信服務提供商O2的商標衝突,乾脆直接邁向o3。而這一跨越式的命名,似乎也隱喻了o3的強大性能。
---
o3的能力究竟有多強?
我們先從幾個關鍵評測基準說起。
1. 軟件工程考試(SWE-Bench Verified)
這是一項模擬軟件工程師編程能力的測試,要求代碼快速、準確且無錯誤。o3的得分為71.7%,遠超前代o1。
2. 編程競賽平臺Codeforces
Codeforces是全球知名的編程競賽平臺,高手如雲。o3的得分高達2727,相當於全球排行榜第175名,超越了99.99%的人類參賽者。
3. 數學競賽與科學考試
- 在AIME 2024數學競賽中,o3幾乎接近滿分,成為首個達到這一水平的AI模型。
- 在博士級科學考試GPQA Diamond中,雖然進步幅度不及數學和編程,但也展現了顯著的提升。
4. 高級數學基準測試(FrontierMath)
這是由60多位頂尖數學家合作開發的測試,專門評估AI在高級數學推理方面的能力。為了避免數據汙染,所有題目均為全新原創。此前,GPT-4等模型在此測試中的成功率不足2%,而o3的成功率提升至25.2%,幾乎開創了一個新領域。
---
ARC-AGI:AI智能的終極考驗
ARC-AGI(Abstraction and Reasoning Corpus for AGI)是一個極具挑戰性的評估標準,旨在測試AI的抽象推理能力。其任務要求AI在完全陌生的環境中識別模式並解決問題,真正考驗其適應性和通用智能。
過去幾代AI模型在ARC-AGI上的表現如下:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 (2024): 32%
- o1 Pro (2024): ~50%
而今天,o3的得分達到了驚人的87.5%,遠超人類閾值分數85%。從2019年的0%到如今的87.5%,這段旅程堪稱AI發展的奇蹟,僅用半年時間便實現了從5%到87.5%的飛躍。
如果將AI模型的進化比作DOTA的分段,過去的競爭還停留在“傳奇”階段,而o3已經一躍成為“超凡入聖”,傲視群雄。
---
未來展望:2025年,AI行業的全新篇章
儘管o3的表現令人驚豔,但目前它仍屬於“期貨”階段,僅向紅隊(安全測試團隊)開放申請。OpenAI計劃在2025年初推出基於o3的小型模型“o3-mimi”,預計在1月底開放,但很可能僅限Pro會員使用。
隨著o3的發佈,AI行業的未來更加令人期待。推理模型、智能代理(Agent)、AI硬件以及世界模型的進化,都將推動整個行業邁向更高的臺階。2024年只是一箇中間態,而2025年,將是AI技術全面爆發的一年。
你準備好迎接這一切了嗎?
---
OpenAI 12天直播發布回顧(想看之前的朋友可以去主頁,每天都有介紹)
OpenAI直播第1天:上線o1滿血版,推出200美刀的Pro會員
OpenAI直播第2天:強化微調
OpenAI直播第3天:Sora正式上線!
OpenAI直播第4天:ChatGPT Canvas更新
OpenAI直播第5天:ChatGPT和Apple
OpenAI直播第6天:高級語音模式-視頻通話
OpenAI直播第7天:發佈 Projects
OpenAI直播第8天:搜索功能更新
OpenAI直播第9天:發佈o1 api
OpenAI直播第10天:給chatgpt打電話
OpenAI直播第11天:客戶端升級
OpenAI直播第12天:王炸!o3模型!