热门 OpenAI直播第12天：王炸！o3模型！-3楼猫

“你知道吗？AI的智能水平已经逼近甚至超越了人类的极限。”

今天凌晨2点，OpenAI的12天直播迎来了最高潮——o3模型的震撼发布。这场发布会不仅标志着AI技术的又一次飞跃，也宣告了OpenAI在通往通用人工智能（AGI）道路上的无可匹敌。

为何直接跳过o2？

有趣的是，OpenAI此次直接跳过了“o2”版本，原因竟是为了避免与英国电信服务提供商O2的商标冲突，干脆直接迈向o3。而这一跨越式的命名，似乎也隐喻了o3的强大性能。

---

o3的能力究竟有多强？

我们先从几个关键评测基准说起。

1. 软件工程考试（SWE-Bench Verified）

这是一项模拟软件工程师编程能力的测试，要求代码快速、准确且无错误。o3的得分为71.7%，远超前代o1。

2. 编程竞赛平台Codeforces

Codeforces是全球知名的编程竞赛平台，高手如云。o3的得分高达2727，相当于全球排行榜第175名，超越了99.99%的人类参赛者。

3. 数学竞赛与科学考试

- 在AIME 2024数学竞赛中，o3几乎接近满分，成为首个达到这一水平的AI模型。

- 在博士级科学考试GPQA Diamond中，虽然进步幅度不及数学和编程，但也展现了显著的提升。

4. 高级数学基准测试（FrontierMath）

这是由60多位顶尖数学家合作开发的测试，专门评估AI在高级数学推理方面的能力。为了避免数据污染，所有题目均为全新原创。此前，GPT-4等模型在此测试中的成功率不足2%，而o3的成功率提升至25.2%，几乎开创了一个新领域。

---

ARC-AGI：AI智能的终极考验

ARC-AGI（Abstraction and Reasoning Corpus for AGI）是一个极具挑战性的评估标准，旨在测试AI的抽象推理能力。其任务要求AI在完全陌生的环境中识别模式并解决问题，真正考验其适应性和通用智能。

过去几代AI模型在ARC-AGI上的表现如下：

- GPT-2 (2019): 0%

- GPT-3 (2020): 0%

- GPT-4 (2023): 2%

- GPT-4o (2024): 5%

- o1-preview (2024): 21%

- o1 (2024): 32%

- o1 Pro (2024): ~50%

而今天，o3的得分达到了惊人的87.5%，远超人类阈值分数85%。从2019年的0%到如今的87.5%，这段旅程堪称AI发展的奇迹，仅用半年时间便实现了从5%到87.5%的飞跃。

如果将AI模型的进化比作DOTA的分段，过去的竞争还停留在“传奇”阶段，而o3已经一跃成为“超凡入圣”，傲视群雄。

---

未来展望：2025年，AI行业的全新篇章

尽管o3的表现令人惊艳，但目前它仍属于“期货”阶段，仅向红队（安全测试团队）开放申请。OpenAI计划在2025年初推出基于o3的小型模型“o3-mimi”，预计在1月底开放，但很可能仅限Pro会员使用。

随着o3的发布，AI行业的未来更加令人期待。推理模型、智能代理（Agent）、AI硬件以及世界模型的进化，都将推动整个行业迈向更高的台阶。2024年只是一个中间态，而2025年，将是AI技术全面爆发的一年。

你准备好迎接这一切了吗？

---

OpenAI 12天直播发布回顾（想看之前的朋友可以去主页，每天都有介绍）

OpenAI直播第1天：上线o1满血版，推出200美刀的Pro会员

OpenAI直播第2天：强化微调

OpenAI直播第3天：Sora正式上线！

OpenAI直播第4天：ChatGPT Canvas更新

OpenAI直播第5天：ChatGPT和Apple

OpenAI直播第6天：高级语音模式-视频通话

OpenAI直播第7天：发布 Projects

OpenAI直播第8天：搜索功能更新

OpenAI直播第9天：发布o1 api

OpenAI直播第10天：给chatgpt打电话

OpenAI直播第11天：客户端升级

OpenAI直播第12天：王炸！o3模型！