热门 OpenAI直播第12天:王炸!o3模型!


3楼猫 发布时间:2024-12-23 05:26:52 作者:巴拉拉小魔仙 Language

“你知道吗?AI的智能水平已经逼近甚至超越了人类的极限。” 

今天凌晨2点,OpenAI的12天直播迎来了最高潮——o3模型的震撼发布。这场发布会不仅标志着AI技术的又一次飞跃,也宣告了OpenAI在通往通用人工智能(AGI)道路上的无可匹敌。


为何直接跳过o2?

有趣的是,OpenAI此次直接跳过了“o2”版本,原因竟是为了避免与英国电信服务提供商O2的商标冲突,干脆直接迈向o3。而这一跨越式的命名,似乎也隐喻了o3的强大性能。 


---


o3的能力究竟有多强?

我们先从几个关键评测基准说起。 


1. 软件工程考试(SWE-Bench Verified) 

   这是一项模拟软件工程师编程能力的测试,要求代码快速、准确且无错误。o3的得分为71.7%,远超前代o1。 


2. 编程竞赛平台Codeforces 

   Codeforces是全球知名的编程竞赛平台,高手如云。o3的得分高达2727,相当于全球排行榜第175名,超越了99.99%的人类参赛者。 


3. 数学竞赛与科学考试 

   - 在AIME 2024数学竞赛中,o3几乎接近满分,成为首个达到这一水平的AI模型。 

   - 在博士级科学考试GPQA Diamond中,虽然进步幅度不及数学和编程,但也展现了显著的提升。 


4. 高级数学基准测试(FrontierMath) 

   这是由60多位顶尖数学家合作开发的测试,专门评估AI在高级数学推理方面的能力。为了避免数据污染,所有题目均为全新原创。此前,GPT-4等模型在此测试中的成功率不足2%,而o3的成功率提升至25.2%,几乎开创了一个新领域。 


---


ARC-AGI:AI智能的终极考验 

ARC-AGI(Abstraction and Reasoning Corpus for AGI)是一个极具挑战性的评估标准,旨在测试AI的抽象推理能力。其任务要求AI在完全陌生的环境中识别模式并解决问题,真正考验其适应性和通用智能。 


过去几代AI模型在ARC-AGI上的表现如下: 

- GPT-2 (2019): 0% 

- GPT-3 (2020): 0% 

- GPT-4 (2023): 2% 

- GPT-4o (2024): 5% 

- o1-preview (2024): 21% 

- o1 (2024): 32% 

- o1 Pro (2024): ~50% 


而今天,o3的得分达到了惊人的87.5%,远超人类阈值分数85%。从2019年的0%到如今的87.5%,这段旅程堪称AI发展的奇迹,仅用半年时间便实现了从5%到87.5%的飞跃。 


如果将AI模型的进化比作DOTA的分段,过去的竞争还停留在“传奇”阶段,而o3已经一跃成为“超凡入圣”,傲视群雄。 


---


未来展望:2025年,AI行业的全新篇章 

尽管o3的表现令人惊艳,但目前它仍属于“期货”阶段,仅向红队(安全测试团队)开放申请。OpenAI计划在2025年初推出基于o3的小型模型“o3-mimi”,预计在1月底开放,但很可能仅限Pro会员使用。 


随着o3的发布,AI行业的未来更加令人期待。推理模型、智能代理(Agent)、AI硬件以及世界模型的进化,都将推动整个行业迈向更高的台阶。2024年只是一个中间态,而2025年,将是AI技术全面爆发的一年。 


你准备好迎接这一切了吗?


---


OpenAI 12天直播发布回顾(想看之前的朋友可以去主页,每天都有介绍)


OpenAI直播第1天:上线o1满血版,推出200美刀的Pro会员

OpenAI直播第2天:强化微调

OpenAI直播第3天:Sora正式上线!

OpenAI直播第4天:ChatGPT Canvas更新

OpenAI直播第5天:ChatGPT和Apple

OpenAI直播第6天:高级语音模式-视频通话

OpenAI直播第7天:发布 Projects

OpenAI直播第8天:搜索功能更新

OpenAI直播第9天:发布o1 api

OpenAI直播第10天:给chatgpt打电话

OpenAI直播第11天:客户端升级

OpenAI直播第12天:王炸!o3模型!


© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com