熱門 OpenAI直播第12天：王炸！o3模型！-3樓貓

“你知道嗎？AI的智能水平已經逼近甚至超越了人類的極限。”

今天凌晨2點，OpenAI的12天直播迎來了最高潮——o3模型的震撼發佈。這場發佈會不僅標誌著AI技術的又一次飛躍，也宣告了OpenAI在通往通用人工智能（AGI）道路上的無可匹敵。

為何直接跳過o2？

有趣的是，OpenAI此次直接跳過了“o2”版本，原因竟是為了避免與英國電信服務提供商O2的商標衝突，乾脆直接邁向o3。而這一跨越式的命名，似乎也隱喻了o3的強大性能。

---

o3的能力究竟有多強？

我們先從幾個關鍵評測基準說起。

1. 軟件工程考試（SWE-Bench Verified）

這是一項模擬軟件工程師編程能力的測試，要求代碼快速、準確且無錯誤。o3的得分為71.7%，遠超前代o1。

2. 編程競賽平臺Codeforces

Codeforces是全球知名的編程競賽平臺，高手如雲。o3的得分高達2727，相當於全球排行榜第175名，超越了99.99%的人類參賽者。

3. 數學競賽與科學考試

- 在AIME 2024數學競賽中，o3幾乎接近滿分，成為首個達到這一水平的AI模型。

- 在博士級科學考試GPQA Diamond中，雖然進步幅度不及數學和編程，但也展現了顯著的提升。

4. 高級數學基準測試（FrontierMath）

這是由60多位頂尖數學家合作開發的測試，專門評估AI在高級數學推理方面的能力。為了避免數據汙染，所有題目均為全新原創。此前，GPT-4等模型在此測試中的成功率不足2%，而o3的成功率提升至25.2%，幾乎開創了一個新領域。

---

ARC-AGI：AI智能的終極考驗

ARC-AGI（Abstraction and Reasoning Corpus for AGI）是一個極具挑戰性的評估標準，旨在測試AI的抽象推理能力。其任務要求AI在完全陌生的環境中識別模式並解決問題，真正考驗其適應性和通用智能。

過去幾代AI模型在ARC-AGI上的表現如下：

- GPT-2 (2019): 0%

- GPT-3 (2020): 0%

- GPT-4 (2023): 2%

- GPT-4o (2024): 5%

- o1-preview (2024): 21%

- o1 (2024): 32%

- o1 Pro (2024): ~50%

而今天，o3的得分達到了驚人的87.5%，遠超人類閾值分數85%。從2019年的0%到如今的87.5%，這段旅程堪稱AI發展的奇蹟，僅用半年時間便實現了從5%到87.5%的飛躍。

如果將AI模型的進化比作DOTA的分段，過去的競爭還停留在“傳奇”階段，而o3已經一躍成為“超凡入聖”，傲視群雄。

---

未來展望：2025年，AI行業的全新篇章

儘管o3的表現令人驚豔，但目前它仍屬於“期貨”階段，僅向紅隊（安全測試團隊）開放申請。OpenAI計劃在2025年初推出基於o3的小型模型“o3-mimi”，預計在1月底開放，但很可能僅限Pro會員使用。

隨著o3的發佈，AI行業的未來更加令人期待。推理模型、智能代理（Agent）、AI硬件以及世界模型的進化，都將推動整個行業邁向更高的臺階。2024年只是一箇中間態，而2025年，將是AI技術全面爆發的一年。

你準備好迎接這一切了嗎？

---

OpenAI 12天直播發布回顧（想看之前的朋友可以去主頁，每天都有介紹）

OpenAI直播第1天：上線o1滿血版，推出200美刀的Pro會員

OpenAI直播第2天：強化微調

OpenAI直播第3天：Sora正式上線！

OpenAI直播第4天：ChatGPT Canvas更新

OpenAI直播第5天：ChatGPT和Apple

OpenAI直播第6天：高級語音模式-視頻通話

OpenAI直播第7天：發佈 Projects

OpenAI直播第8天：搜索功能更新

OpenAI直播第9天：發佈o1 api

OpenAI直播第10天：給chatgpt打電話

OpenAI直播第11天：客戶端升級

OpenAI直播第12天：王炸！o3模型！