《DeepDive:AdvancingDeepSearchAgents

爱生活爱珂珂 2025-09-16 08:41:17

《DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL》

推动深度搜索智能体迈向新高度:DeepDive结合知识图谱自动合成难题与端到端多轮强化学习,实现长程推理与深度检索无缝融合。

• 利用知识图谱随机游走生成多跳路径,自动合成含模糊属性的复杂难题,模拟真实世界中信息稀缺且分散的检索环境。

• 端到端多轮强化学习训练,采用严格格式与答案校验奖励机制,引导模型迭代推理、动态调用搜索工具,显著提升长期规划和工具调用能力。

• DeepDive-32B在BrowseComp等四大深度搜索基准测试中表现优异,超过多款开源及部分专有系统,实现14.8%准确率,强化学习阶段工具调用次数提升30%+,促使搜索策略更深更广。

• 测试时支持工具调用次数扩展与多轨并行采样,创新选取最少调用轨迹的答案方式,准确率提升近100%,展现出强大的推理与搜索协同能力。

• 半自动i.i.d.数据合成进一步提升模型表现,BrowseComp准确率突破20%,多语言能力同步增强,确保训练数据质量与无数据泄漏风险。

心得:

1. 复杂多跳推理需借助结构化知识图谱构建高质量训练数据,单纯自然语言数据难以模拟真实难题的模糊性与多样性。

2. 多轮强化学习不仅提升模型推理深度,更能有效激励模型合理规划搜索步骤,突破单步推理或浅层工具调用的瓶颈。

3. 测试时灵活扩展工具调用次数及多轨采样策略,是提升深度搜索性能的关键,提示未来系统设计应重视动态资源调度与结果融合。

详情🔗 arxiv.org/abs/2509.10446

人工智能 深度学习 强化学习 知识图谱 自然语言处理 机器阅读理解 多轮推理 深度搜索

0 阅读:1
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注