大模型真的会反思了西北大学联手谷歌改写推理方式
强化学习(RL)模型过去被认为在测试期只能“利用”而不能“探索”,但一项新研究挑战了这一传统观点。西北大学联合谷歌和DeepMind团队,提出了贝叶斯自适应强化学习(BARL)框架,为RL注入“反思性探索”能力。
相比传统RL在训练时死记硬背,BARL让模型在测试时也能根据环境变化实时调整策略。比如在一个“输出3个相同字符”的任务中,传统RL遇到新字符就卡壳,而BARL能主动试错、修正,成功适配新情况。
核心机制在于——模型不再基于马尔可夫假设做决策,而是综合历史观察更新“对环境的信念”,每个决策都权衡预期回报与信息增益。用一句话总结:不是多反思,而是反思得更准。
在数学推理任务中,BARL不仅准确率高,还更省token,因为它避免了无效反思。研究还指出,基础模型的“反思”很多是无效冗余,只是表面上在思考。