OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

科技 12-27 阅读：4 评论：0

OpenAI在年末发布会上发布了重磅的o3系列模型，标志着AI领域的一大进展。

此次发布的o3模型是o1的升级版本，出于对可能与英国电信公司O2商标冲突的考虑，OpenAI决定跳过“o2”这一命名，直接使用“o3”。

这一点，OpenAI的CEO Sam Altman也自嘲道，公司的命名确实有点“混乱”。

发布会由Sam Altman、研究高级副总裁Mark Chen和研究科学家Hongyu Ren（任泓宇）共同主持。

值得一提的是，任泓宇毕业于北京大学，是o1模型的重要贡献者之一，也是GPT-4o的核心开发人员，曾在苹果、微软和英伟达等知名企业有过丰富的实习经历。

o3系列包括两款主打模型：

OpenAI o3：旗舰版，性能强劲OpenAI o3 mini：轻量版，速度更快，成本更低，性价比极高

不过，别急着高兴，o3系列目前并不会直接向普通用户开放，OpenAI计划先进行外部安全测试，正式的发布时间预计在明年1月。

（现在有兴趣的朋友可以申请测试：https://openai.com/index/early-access-for-safety-testing/）

一、OpenAIo3性能大飞跃

o3模型的“纸面参数”迎来全方位升级。

在SweepBench Verified基准测试中，o3的准确率达到了约71.7%，比o1提高了整整20%。

在编码方面，o1在编程平台Codeforces上的得分为1891，而o3在增强推理能力和延长思考时间后，得分高达2727。

作为参考，Mark Chen在测试中也仅得到了2500分，这意味着o3的表现已经接近甚至超过了许多专业程序员。

在数学领域，o3的表现同样惊艳。

在2024年的美国数学竞赛AIME中，o3的准确率为90.67%，远超o1的83.3%。

而在衡量博士级解答能力的GPQA Diamond测试中，o3达到了87.7%的准确率，o1则只有78%。

可以想象，连领域内的博士专家也常常只能在自己的专长领域达到约70%的准确率。

面对接近满分的基准测试结果，OpenAI推出了全新的数学测试——EpochAI Frontier Math。

这是当前最具挑战性的数学测试之一，题目复杂得连专业数学家也得花费数小时甚至数天才能解决。

尽管如此，o3依旧在高算力下表现出色，得分超过2457。

要谈AGI（通用人工智能），就不能不提ARC-AGI这个专门测试AGI能力的基准。

由Keras的创始人François Chollet开发，ARC-AGI通过图形推理测试模型的推理能力。

在测试中，当演示人员提出即兴问题时，o3能够准确理解任务要求并完成任务，超越了许多人类的表现。

ARC-AGI的每个任务都要求模型具备不同的技能，避免了简单的“死记硬背”，而是真正考察模型实时学习和应用新技能的能力。

在低算力的情况下，o3在ARC-AGI上得分达到75.7，经过加长思考时间和提高算力后，得分进一步提升至87.5%，远超大多数人类水平。

OpenAI的意思很明确：o3正一步步将我们带向AGI。

二、OpenAIo3 mini 速度更快，成本更低

继今年九月发布o1 mini之后，OpenAI又推出了o3 mini，继承了其强大的数学和编程能力，并且大幅降低了成本。

o3 mini继续沿用低、中、高三种推理时间模式，用户可以根据任务的复杂度调整推理时间，简单任务快速完成，复杂任务则可以给模型更多的思考时间。

在早期测试中，o3 mini在Codeforces上的得分随着推理时间的延长而逐步提升。在中等推理时间下，o3 mini的得分已经超过了o1 mini。

实际应用中，演示人员要求o3 mini生成一个Python代码生成器，该脚本能启动服务器并创建本地用户界面。模型能够迅速完成任务，并生成有效代码。

此外，o3 mini还具备自我测试的能力。例如，它在GPQA数据集测试中以低推理模式完成复杂数据集的评估，仅用一分钟就完成了自我评估，准确率达到61.62%。

在数学基准AIME测试中，o3 mini在低推理模式下表现与o1 mini相当，而在中等推理模式下则超越了o1 mini，且延时更低。

为了满足开发者的需求，o3 mini还支持函数调用、结构化输出以及开发者指令等API功能。

o3 mini和o3的申请通道现已开放，预计o3 mini将在1月向所有用户推出，而完整版o3模型将在未来发布。

在这场为期12天的年末发布会上，OpenAI终于推出了压轴之作——o3模型，给一度平淡的发布会带来了意想不到的高潮。

不到3个月的时间，OpenAI便完成了o1模型的升级，从GPT系列到o系列的转型，显然是OpenAI深思熟虑后的战略选择，而这一决定也证明是正确的。

微软CEO Satya Nadella最近在一档播客节目中表示，OpenAI在AI领域领先对手约两年之久。

但这种相对宽松的竞争态势或许正在发生变化。根据Menlo Ventures的报告，ChatGPT的市场份额正在被逐步蚕食，从2023年的50%下降到2024年的34%。

随着其他公司如Anthropic、Google等推出与GPT-4、o1相媲美的模型，OpenAI的优势逐渐缩小。

而且，随着Scaling Law的瓶颈显现和高管的离场，OpenAI之前凭借基础模型所获得的优势也正在加速消退。

面对Grok-3和Claude等新模型的崛起，OpenAI可能已经没有太多时间去再度创造长达两年的技术空窗期。

尽管如此，今年最强的AI厂商依然是OpenAI，明年则可能因为技术发展的多样性，迎来许多不同的答案。

幸运的是，作为用户，我们将是这场变局中的最大赢家。

OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

网友评论

狠活科技

最近发表

网站分类