[LG]《Understanding Tool-Integrated Reasoning》H Lin, Z Xu [Tencent] (2025)
工具集成推理(TIR)如何突破纯文本大语言模型(LLM)能力天花板?
• 理论突破:首次正式证明,集成外部工具(如Python解释器)能严格扩展LLM的生成支持空间,打破纯文本模型“隐形束缚”,实现生成概率为零的正确解答轨迹。
• 令牌效率差异:程序化表达在令牌消耗上远优于自然语言模拟,复杂算法用代码几令牌即可表达,纯文本则需庞大枚举,导致纯文本模型在有限上下文窗口下无法实现某些算法策略。
• 实证验证:基于Qwen3-8B模型,TIR在数学竞赛类基准(AIME24/25、Omni-MATH-512)上显著提升pass﹫𝑘性能,解决更多高难度问题,且优势不仅限于计算密集型,还涵盖抽象推理问题。
• 新兴认知模式:模型通过“洞察转化编程”、“代码探索与验证”和“复杂计算外包”三大策略,形成与代码解释器协同的全新思维范式。
• 优化算法ASPO:提出Advantage Shaping Policy Optimization,直接调控优势函数,稳定引导模型更早且更频繁调用工具,避免传统奖励塑形引发的训练不稳和奖励错配。
• 扩展适用:原理适用于多种工具(搜索引擎、验证器、外部记忆、交互环境等),支持多工具复合使用,推动LLM从单一文本生成器向工具驱动的多模态智能体转变。
深刻揭示了工具为何不仅是辅助计算器,而是扩展算法空间和思维边界的关键。未来,设计稳定高效的优势塑形策略,将是提升工具集成智能体表现的核心。
了解详情🔗arxiv.org/abs/2508.19201
大语言模型工具集成推理强化学习算法效率人工智能