OpenAI o3模型正式发布,AGI 终于来了,附抢先测试方法

科技 12-27 阅读:4 评论:0

OpenAI在年末发布会上发布了重磅的o3系列模型,标志着AI领域的一大进展。

此次发布的o3模型是o1的升级版本,出于对可能与英国电信公司O2商标冲突的考虑,OpenAI决定跳过“o2”这一命名,直接使用“o3”。

这一点,OpenAI的CEO Sam Altman也自嘲道,公司的命名确实有点“混乱”。

发布会由Sam Altman、研究高级副总裁Mark Chen和研究科学家Hongyu Ren(任泓宇)共同主持。

值得一提的是,任泓宇毕业于北京大学,是o1模型的重要贡献者之一,也是GPT-4o的核心开发人员,曾在苹果、微软和英伟达等知名企业有过丰富的实习经历。

o3系列包括两款主打模型:

OpenAI o3:旗舰版,性能强劲OpenAI o3 mini:轻量版,速度更快,成本更低,性价比极高

不过,别急着高兴,o3系列目前并不会直接向普通用户开放,OpenAI计划先进行外部安全测试,正式的发布时间预计在明年1月。

(现在有兴趣的朋友可以申请测试:https://openai.com/index/early-access-for-safety-testing/)

一、OpenAIo3性能大飞跃

o3模型的“纸面参数”迎来全方位升级。

在SweepBench Verified基准测试中,o3的准确率达到了约71.7%,比o1提高了整整20%。

在编码方面,o1在编程平台Codeforces上的得分为1891,而o3在增强推理能力和延长思考时间后,得分高达2727。

作为参考,Mark Chen在测试中也仅得到了2500分,这意味着o3的表现已经接近甚至超过了许多专业程序员。

在数学领域,o3的表现同样惊艳。

在2024年的美国数学竞赛AIME中,o3的准确率为90.67%,远超o1的83.3%。

而在衡量博士级解答能力的GPQA Diamond测试中,o3达到了87.7%的准确率,o1则只有78%。

可以想象,连领域内的博士专家也常常只能在自己的专长领域达到约70%的准确率。

面对接近满分的基准测试结果,OpenAI推出了全新的数学测试——EpochAI Frontier Math。

这是当前最具挑战性的数学测试之一,题目复杂得连专业数学家也得花费数小时甚至数天才能解决。

尽管如此,o3依旧在高算力下表现出色,得分超过2457。

要谈AGI(通用人工智能),就不能不提ARC-AGI这个专门测试AGI能力的基准。

由Keras的创始人François Chollet开发,ARC-AGI通过图形推理测试模型的推理能力。

在测试中,当演示人员提出即兴问题时,o3能够准确理解任务要求并完成任务,超越了许多人类的表现。

ARC-AGI的每个任务都要求模型具备不同的技能,避免了简单的“死记硬背”,而是真正考察模型实时学习和应用新技能的能力。

在低算力的情况下,o3在ARC-AGI上得分达到75.7,经过加长思考时间和提高算力后,得分进一步提升至87.5%,远超大多数人类水平。

OpenAI的意思很明确:o3正一步步将我们带向AGI。

二、OpenAIo3 mini 速度更快,成本更低

继今年九月发布o1 mini之后,OpenAI又推出了o3 mini,继承了其强大的数学和编程能力,并且大幅降低了成本。

o3 mini继续沿用低、中、高三种推理时间模式,用户可以根据任务的复杂度调整推理时间,简单任务快速完成,复杂任务则可以给模型更多的思考时间。

在早期测试中,o3 mini在Codeforces上的得分随着推理时间的延长而逐步提升。在中等推理时间下,o3 mini的得分已经超过了o1 mini。

实际应用中,演示人员要求o3 mini生成一个Python代码生成器,该脚本能启动服务器并创建本地用户界面。模型能够迅速完成任务,并生成有效代码。

此外,o3 mini还具备自我测试的能力。例如,它在GPQA数据集测试中以低推理模式完成复杂数据集的评估,仅用一分钟就完成了自我评估,准确率达到61.62%。

在数学基准AIME测试中,o3 mini在低推理模式下表现与o1 mini相当,而在中等推理模式下则超越了o1 mini,且延时更低。

为了满足开发者的需求,o3 mini还支持函数调用、结构化输出以及开发者指令等API功能。

o3 mini和o3的申请通道现已开放,预计o3 mini将在1月向所有用户推出,而完整版o3模型将在未来发布。

在这场为期12天的年末发布会上,OpenAI终于推出了压轴之作——o3模型,给一度平淡的发布会带来了意想不到的高潮。

不到3个月的时间,OpenAI便完成了o1模型的升级,从GPT系列到o系列的转型,显然是OpenAI深思熟虑后的战略选择,而这一决定也证明是正确的。

微软CEO Satya Nadella最近在一档播客节目中表示,OpenAI在AI领域领先对手约两年之久。

但这种相对宽松的竞争态势或许正在发生变化。根据Menlo Ventures的报告,ChatGPT的市场份额正在被逐步蚕食,从2023年的50%下降到2024年的34%。

随着其他公司如Anthropic、Google等推出与GPT-4、o1相媲美的模型,OpenAI的优势逐渐缩小。

而且,随着Scaling Law的瓶颈显现和高管的离场,OpenAI之前凭借基础模型所获得的优势也正在加速消退。

面对Grok-3和Claude等新模型的崛起,OpenAI可能已经没有太多时间去再度创造长达两年的技术空窗期。

尽管如此,今年最强的AI厂商依然是OpenAI,明年则可能因为技术发展的多样性,迎来许多不同的答案。

幸运的是,作为用户,我们将是这场变局中的最大赢家。

网友评论