GPT-5在空间智能领域实现重大突破,但仍未完全达到人类水平:
• 首次系统整合8大最新空间智能基准,涵盖六大核心能力:度量测量(MM)、心理重建(MR)、空间关系(SR)、视角转换(PT)、形变组装(DA)、综合推理(CR)。
• GPT-5在MM和SR任务中达到或超越人类表现,显著优于同期顶级模型;部分PT任务亦见明显提升。
• 复杂能力如MR、PT、DA、CR仍存显著差距,尤其是多阶段推理和结构变换任务,GPT-5及其他顶尖模型均表现不足。
• 商业闭源模型在最困难的空间智能任务上未显示出决定性优势,开源模型表现相近,表明开源生态具备驱动未来突破的潜力。
• 统一评测协议与提示设计确保跨基准公平对比,链式思考(CoT)策略显著提升空间推理能力,但高强度推理模式成本与超时风险明显。
• 案例分析揭示GPT-5对基本空间尺寸掌握良好,但对视角变换和复杂空间关系理解仍有限,未来需强化多阶段空间认知与动态环境适应能力。
空间智能是AGI关键但尚未攻克的前沿,GPT-5虽创领先水平,任务复杂度越高性能差距越大。该研究为空间智能能力划分与评测标准奠定基础,指明未来模型优化方向。
详情🔗 arxiv.org/abs/2508.13142
人工智能 多模态模型 空间智能 GPT5 机器学习 视觉理解