OpenAI 的新系统 o3 在 ARC-AGI-Pub 上取得了突破性进展,在公开排行榜上,以 75.7% 的得分在半私有评估集中取得了领先。而高计算配置(172 倍)下的 o3 得分则达到了 87.5%。
这一结果代表了 AI 能力的显著提升,展现出前所未有的任务适应能力,这在 GPT 系列模型中从未出现过。作为对比,ARC-AGI-1 从 2020 年 GPT-3 的 0% 得分到 2024 年 GPT-4o 的 5% 得分,经历了 4 年的时间。o3 的出现将使我们重新审视对 AI 能力的认知。
ARC Prize 的目标不仅限于首个基准测试,而是希望成为通往 AGI 的指路明灯。该项目团队对与 OpenAI 以及其他团队合作,共同设计下一代 AGI 基准测试感到兴奋。
ARC-AGI-2(与 ARC-AGI-1 格式相同,对于人类来说简单,但对 AI 来说更难)将于 ARC Prize 2025 同时推出。该项目团队致力于运行大奖赛,直到出现一个评分达到 85% 的高效开源解决方案。
OpenAI 的 o3 在两组 ARC-AGI 数据集上进行了测试:
* 半私有评估:100 个用于评估过拟合的私有任务
* 公开评估:400 个公开任务
根据 OpenAI 的指示,测试了两种计算水平(样本大小不同):6(高效率)和 1024(低效率,计算量为 172 倍)。
结果如下:
| 数据集 | 任务数 | 效率 | 得分 | 零售成本 | 样本数 | 令牌数 | 每任务成本 | 每任务时间(分钟) |
| :----- | :---- | :----- | :---- | :------- | :----- | :----- | :-------- | :---------------- |
| 半私有 | 100 | 高 | 75.7% | 2012 美元 | 6 | 3300 万 | 20 美元 | 1.3 |
| 半私有 | 100 | 低 | 87.5% | - | 1024 | 57 亿 | - | 13.8 |
| 公开 | 400 | 高 | 82.8% | 6677 美元 | 6 | 1.11 亿 | 17 美元 | N/A |
| 公开 | 400 | 低 | 91.5% | - | 1024 | 95 亿 | - | N/A |
高效率得分 75.7% 符合 ARC-AGI-Pub 的预算规则(成本 < 10000 美元),因此在公开排行榜上排名第一!
低效率得分 87.5% 非常昂贵,但也表明新任务的性能随着计算量的增加而提高(至少在目前水平)。
尽管每任务成本很高,但这些数字不仅仅是将蛮力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了 AI 适应新任务能力的重大飞跃。这不是简单的渐进式改进,而是一次真正的突破,标志着与之前 LLM 的局限性相比,AI 能力发生了质的变化。o3 能够适应以前从未遇到的任务,可以说在 ARC-AGI 领域接近人类水平的表现。
当然,这种通用性是以高昂的成本为代价的,目前还不太经济:你可以雇用人类来解决 ARC-AGI 任务,每任务约 5 美元(我们做过),而只消耗很少的能源。与此同时,o3 在低计算模式下需要 17-20 美元/任务。但成本效益可能会在未来几个月和几年内大幅提高,因此你应该预计这些能力将在相当短的时间内与人工工作相媲美。
o3 相比 GPT 系列的改进证明了架构至关重要。你无法在 GPT-4 上投入更多计算来获得这些结果。简单地扩展我们从 2019 年到 2023 年所做的事情——采用相同的架构,用更多数据训练更大的版本——是不够的。进一步的进步需要新的想法。
那么,它是 AGI 吗?
ARC-AGI 作为检测此类突破的关键基准,以一种饱和或要求较低的基准无法实现的方式突出了泛化能力。然而,重要的是要注意,ARC-AGI 不是 AGI 的酸性测试——正如我们今年已经重复过几十次的那样。它是一个研究工具,旨在将注意力集中在 AI 中最具挑战性的未解决问题上,它在过去五年中很好地履行了这一作用。
通过 ARC-AGI 不等于实现 AGI,事实上,我认为 o3 还没有达到 AGI 水平。o3 在一些非常简单的任务上仍然会失败,这表明与人类智能存在根本差异。
此外,早期数据表明,即将推出的 ARC-AGI-2 基准测试仍将对 o3 构成重大挑战,即使在高计算量的情况下,o3 的得分也可能降至 30% 以下(而聪明的人类在没有任何训练的情况下仍然能够获得 95% 以上的分数)。这表明,在不依赖专家领域知识的情况下,仍然有可能创建具有挑战性、非饱和的基准测试。当创建对普通人类来说简单但对 AI 来说困难的任务变得不可能时,你就知道 AGI 出现了。
与旧模型相比,o3 有什么不同?
为什么 o3 的得分比 o1 高得多?为什么 o1 的得分比 GPT-4o 高得多?我认为这一系列结果为持续追求 AGI 提供了宝贵的数据点。
我对 LLM 的心理模型是,它们充当向量程序的存储库。当收到提示时,它们会获取提示映射到的程序,并在手头的输入上“执行”它。LLM 是一种通过被动接触人类生成的内容来存储和操作数百万个有用的小程序的方法。
这种“记忆、获取、应用”范式可以在给定适当训练数据的情况下在任意任务中实现任意水平的技能,但它无法适应新颖性或即时学习新技能(也就是说,这里没有发挥流体智力)。这在 LLM 在 ARC-AGI 上的低性能中得到了体现,ARC-AGI 是唯一专门设计用于衡量对新颖性的适应性的基准——GPT-3 的得分是 0,GPT-4 的得分接近 0,GPT-4o 的得分达到 5%。将这些模型扩展到可能的极限并没有使 ARC-AGI 的数字接近几年前基本蛮力枚举所能达到的水平(高达 50%)。
为了适应新颖性,你需要两样东西。首先,你需要知识——一组可重用的函数或程序来借鉴。LLM 拥有足够的知识。其次,你需要能够在面对新任务时将这些函数重新组合成一个全新的程序——一个模拟手头任务的程序。程序综合。LLM 长期以来缺乏这项功能。o 系列模型解决了这个问题。
目前,我们只能推测 o3 的具体工作原理。但 o3 的核心机制似乎是在令牌空间内进行自然语言程序搜索和执行——在测试时,模型搜索描述解决任务所需步骤的可能思维链 (CoT) 空间,其方式可能与 AlphaZero 风格的蒙特卡洛树搜索并不太相似。在 o3 的情况下,搜索可能由某种评估模型指导。值得注意的是,Demis Hassabis 在 2023 年 6 月的一次采访中暗示,DeepMind 一直在研究这个想法——这条工作线已经酝酿很久了。
因此,虽然单代 LLM 难以应对新颖性,但 o3 通过生成并执行自己的程序克服了这一问题,其中程序本身(CoT)成为知识重组的产物。虽然这不是测试时知识重组的唯一可行方法(你也可以进行测试时训练或在潜在空间中搜索),但根据这些新的 ARC-AGI 数字,它代表了当前的技术水平。
实际上,o3 代表了一种深度学习引导的程序搜索形式。该模型在“程序”(在本例中为自然语言程序——描述解决手头任务步骤的 CoT 空间)空间上进行测试时搜索,由深度学习先验(基础 LLM)指导。解决单个 ARC-AGI 任务最终可能需要数千万个令牌并花费数千美元的原因是,这个搜索过程必须探索程序空间中的大量路径——包括回溯。
然而,这里发生的事情与我之前将“深度学习引导的程序搜索”描述为通往 AGI 的最佳途径之间存在两个重要区别。至关重要的是,o3 生成的程序是自然语言指令(由 LLM“执行”),而不是可执行的符号程序。这意味着两件事。首先,它们无法通过执行和直接在任务上进行评估来接触现实——相反,它们必须通过另一个模型来评估其适应性,而缺乏这种基础的评估在分布外运行时可能会出错。其次,系统无法自主获取生成和评估这些程序的能力(就像 AlphaZero 这样的系统可以自行学习玩棋盘游戏一样)。相反,它依赖于专家标记的人工生成的 CoT 数据。
目前尚不清楚新系统的确切限制以及它可能扩展到什么程度。我们需要进一步的测试才能找出答案。无论如何,目前的性能都代表了一项非凡的成就,并明确证实了在程序空间上进行直觉引导的测试时搜索是构建能够适应任意任务的 AI 系统的强大范式。
接下来会发生什么?
首先,由 2025 年的 ARC Prize 竞赛促进的 o3 的开源复制对于推动研究界前进至关重要。需要对 o3 的优势和局限性进行彻底的分析,以了解其扩展行为、潜在瓶颈的性质,并预测进一步的发展可能会释放哪些能力。
此外,ARC-AGI-1 现在已经饱和——除了 o3 的新得分之外,事实上,一个大型的低计算 Kaggle 解决方案集合现在可以在私有评估中获得 81% 的分数。
我们将使用一个新版本——ARC-AGI-2——提高标准,该版本从 2022 年就开始开发。它有望重设技术水平。我们希望它通过具有挑战性、高信号的评估来推动 AGI 研究的界限,这些评估突出了当前 AI 的局限性。
我们早期对 ARC-AGI-2 的测试表明,它将非常有用且极具挑战性,即使对于 o3 也是如此。当然,ARC Prize 的目标是产生一个高效的开源解决方案,以赢得大奖。我们目前打算在 ARC Prize 2025 同时推出 ARC-AGI-2(预计发布日期:第一季度末)。
展望未来,ARC Prize 基金会将继续创建新的基准测试,将研究人员的注意力集中在通往 AGI 的道路上最难解决的问题上。我们已经开始着手第三代基准测试,它完全偏离了 2019 年的 ARC-AGI 格式,并融合了一些激动人心的新理念。
参与:开源分析
今天,我们还发布了高计算量、o3 标记的任务,并希望得到你的帮助来分析它们。特别是,我们非常好奇 o3 无法解决的公开评估任务的 9% 集,即使计算量很大,但对人类来说却很简单。
我们邀请社区帮助我们评估已解决和未解决的任务的特点。
为了激发你的想法,以下是在高计算量下 o3 未能解决的 3 个任务示例:
* ARC-AGI 任务 ID:c6e1b8da
* ARC-AGI 任务 ID:0d87d2a6
* ARC-AGI 任务 ID:b457fec5
查看我们完整的 o3 测试数据。
我们还在 Discord 中创建了一个名为 oai-analysis 的新频道,我们很乐意在那里听到你的分析和见解。或者在 X/Twitter 上标记我们 @arcprize。
结论
总之——o3 代表着一次重大的飞跃。它在 ARC-AGI 上的表现突出了适应性和泛化能力的真正突破,这是其他任何基准都无法明确做到的。
o3 解决了 LLM 范式的根本局限性——无法在测试时重新组合知识——它通过一种 LLM 引导的自然语言程序搜索来做到这一点。这不仅仅是渐进式的进步;这是一个新的领域,需要严肃的科学关注。