[LG]《AgentLearningviaEarlyExperience

爱生活爱珂珂 2025-10-11 06:04:21

[LG]《Agent Learning via Early Experience》K Zhang, X Chen, B Liu, T Xue... [Meta Superintelligence Labs & The Ohio State University & FAIR at Meta] (2025)

Meta与俄亥俄州立大学联合发布《Agent Learning via Early Experience》新研究,提出“早期经验”范式,助力语言智能体从自身交互中学习,无需依赖环境奖励信号。

🔍背景:

当前语言代理大多基于专家示范监督学习,数据稀缺且泛化差,强化学习受限于环境奖励难以设计或稀疏,导致训练效率低下。

🎯贡献:

1️⃣ 早期经验范式:智能体主动执行多样化操作,收集由自身行为产生的未来状态作为无奖励的监督信号,实现从自身“经验”中学习。

2️⃣ 两大策略:

- 隐式世界建模(Implicit World Modeling):基于未来状态预测,内化环境动态,增强策略决策能力。

- 自我反思(Self-Reflection):对比专家动作与自拟动作结果,生成自然语言推理,提升对错误行为的理解与改进。

3️⃣ 多环境多模型实证:涵盖8种不同任务(网页导航、多轮工具调用、科学实验、长程规划等),显著提升成功率+9.6%,强化泛化能力,且为后续强化学习提供强劲预训练基础。

🚀亮点:

- 早期经验无需外部奖励,极大拓展了可训练环境范围。

- 训练过程高效,能用更少专家数据达到更优性能。

- 方法对模型大小和环境复杂度均表现稳健。

- 作为监督学习与强化学习的桥梁,推动语言智能体迈向真正自主学习时代。

🤖未来方向:

拓展长程信用分配、结合多任务迁移、实地大规模部署,持续推动语言代理的自我成长与智能化。

详细阅读👉 arxiv.org/abs/2510.08558

人工智能 机器学习 语言模型 自主学习 早期经验

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注