“你知道吗?AI的智能水平已经逼近甚至超越了人类的极限。”
今天凌晨2点,OpenAI的12天直播迎来了最高潮——o3模型的震撼发布。这场发布会不仅标志着AI技术的又一次飞跃,也宣告了OpenAI在通往通用人工智能(AGI)道路上的无可匹敌。
为何直接跳过o2?
有趣的是,OpenAI此次直接跳过了“o2”版本,原因竟是为了避免与英国电信服务提供商O2的商标冲突,干脆直接迈向o3。而这一跨越式的命名,似乎也隐喻了o3的强大性能。
---
o3的能力究竟有多强?
我们先从几个关键评测基准说起。
1. 软件工程考试(SWE-Bench Verified)
这是一项模拟软件工程师编程能力的测试,要求代码快速、准确且无错误。o3的得分为71.7%,远超前代o1。
2. 编程竞赛平台Codeforces
Codeforces是全球知名的编程竞赛平台,高手如云。o3的得分高达2727,相当于全球排行榜第175名,超越了99.99%的人类参赛者。
3. 数学竞赛与科学考试
- 在AIME 2024数学竞赛中,o3几乎接近满分,成为首个达到这一水平的AI模型。
- 在博士级科学考试GPQA Diamond中,虽然进步幅度不及数学和编程,但也展现了显著的提升。
4. 高级数学基准测试(FrontierMath)
这是由60多位顶尖数学家合作开发的测试,专门评估AI在高级数学推理方面的能力。为了避免数据污染,所有题目均为全新原创。此前,GPT-4等模型在此测试中的成功率不足2%,而o3的成功率提升至25.2%,几乎开创了一个新领域。
---
ARC-AGI:AI智能的终极考验
ARC-AGI(Abstraction and Reasoning Corpus for AGI)是一个极具挑战性的评估标准,旨在测试AI的抽象推理能力。其任务要求AI在完全陌生的环境中识别模式并解决问题,真正考验其适应性和通用智能。
过去几代AI模型在ARC-AGI上的表现如下:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 (2024): 32%
- o1 Pro (2024): ~50%
而今天,o3的得分达到了惊人的87.5%,远超人类阈值分数85%。从2019年的0%到如今的87.5%,这段旅程堪称AI发展的奇迹,仅用半年时间便实现了从5%到87.5%的飞跃。
如果将AI模型的进化比作DOTA的分段,过去的竞争还停留在“传奇”阶段,而o3已经一跃成为“超凡入圣”,傲视群雄。
---
未来展望:2025年,AI行业的全新篇章
尽管o3的表现令人惊艳,但目前它仍属于“期货”阶段,仅向红队(安全测试团队)开放申请。OpenAI计划在2025年初推出基于o3的小型模型“o3-mimi”,预计在1月底开放,但很可能仅限Pro会员使用。
随着o3的发布,AI行业的未来更加令人期待。推理模型、智能代理(Agent)、AI硬件以及世界模型的进化,都将推动整个行业迈向更高的台阶。2024年只是一个中间态,而2025年,将是AI技术全面爆发的一年。
你准备好迎接这一切了吗?
---
OpenAI 12天直播发布回顾(想看之前的朋友可以去主页,每天都有介绍)
OpenAI直播第1天:上线o1满血版,推出200美刀的Pro会员
OpenAI直播第2天:强化微调
OpenAI直播第3天:Sora正式上线!
OpenAI直播第4天:ChatGPT Canvas更新
OpenAI直播第5天:ChatGPT和Apple
OpenAI直播第6天:高级语音模式-视频通话
OpenAI直播第7天:发布 Projects
OpenAI直播第8天:搜索功能更新
OpenAI直播第9天:发布o1 api
OpenAI直播第10天:给chatgpt打电话
OpenAI直播第11天:客户端升级
OpenAI直播第12天:王炸!o3模型!