[RO]《Ctrl-World:AControllableGenerati

爱生活爱珂珂 2025-10-16 09:11:18

[RO]《Ctrl-World: A Controllable Generative World Model for Robot Manipulation》Y Guo, L X Shi, J Chen, C Finn [Stanford University & Tsinghua University] (2025)

CTRL-WORLD:用于机器人操作的可控生成世界模型

🔹背景:

当前通用机器人策略能执行多样操控技能,但在面对新物体和新指令时,评估与改进困难重重。真实环境测试耗时费力,且需专家标注数据,扩展性差。世界模型能在“想象空间”中模拟策略执行,提供高效替代方案,但构建兼容多步交互、支持多视角、高精度动作控制且长时序一致的可控世界模型仍具挑战。

🔹贡献:

本文提出Ctrl-World,一种可控多视角生成世界模型,满足现代通用视觉-语言-动作(VLA)策略需求:

1️⃣ 多视角联合预测(含腕部相机视角),减少虚假预测,提升交互真实性;

2️⃣ 帧级动作条件输入,实现细粒度动作控制,确保动态与动作因果对齐;

3️⃣ 姿态条件记忆检索机制,通过跨时序信息调用,保持长时序一致性。

训练于含95k轨迹、564场景的DROID数据集,模型能在新场景和新相机布局下持续生成20秒以上一致性轨迹。

🔹优势:

- 无需真实机器人反复试验,即可准确评估策略性能,成功率排序与真实环境高度相关;

- 利用模型内合成的成功轨迹进行有监督微调,提升政策成功率44.7%;

- 支持策略“闭环”想象式训练,实现高效快速迭代。

🔹实验亮点:

- 量化指标(PSNR、SSIM、LPIPS、FID、FVD)全面领先现有单视角动作条件模型;

- 长时序腕部视角预测展现出复杂物体交互的精确模拟;

- 通过多样化动作扰动和指令重述,增强策略多样性和鲁棒性。

🔹未来展望:

尽管模型在复杂精准交互和长时推理上仍有提升空间,Ctrl-World已展示了生成式世界模型在机器人学习领域的巨大潜力。未来,结合更强物理推理能力和自动奖励学习,将推动机器人技能学习迈向更高效、安全、可扩展的阶段。

📖 论文链接:arxiv.org/abs/2510.10125

🔗 项目主页:

机器人 世界模型 视觉语言动作 生成模型 强化学习 机器人操作 AI研究 CtrlWorld

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注