ICLR 2026 | 世界模型卡在多机器人协作?一个顺序分解思路打通

2026-04-02 18:23:40 作者:张美诱

赵子杰,中国科学院自动化研究所博士生,导师为赵冬斌研究员和朱圆恒副研究员。本科毕业于电子科技大学并获得荣誉学位(Top 0.7%)。主要研究方向为强化学习、世界模型和机器人学习,重点关注融合学习、规划与控制的方法,以实现鲁棒且可扩展的真实世界机器人智能。

近年来,Decision-Coupled World Model与Model-based RL在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统从单机器人扩展到多机器人时,问题开始变得棘手。

在多机器人系统中,世界的变化不再由单独个体决定,而是由多个个体共同作用。于是,一个关键问题是:如何让世界模型能够理解多机器人系统的联合动力学?

为了解决这一挑战,中科院自动化所深度强化学习团队提出 SeqWM,对多机器人联合动力学进行顺序式的因果条件化分解,使机器人能够在意图共享的基础上进行协同规划。该成果已被ICLR 2026接收,并在评审中获得8 / 8 / 8 / 2的评分。

论文标题:Empowering Multi-Robot Cooperation via Sequential World Models代码地址:https://github.com/zhaozijie2022/seqwm

为什么多机器人协作如此困难?

当多个机器人同时参与决策时,系统的动力学会迅速变得复杂:每个机器人的动作都会影响环境,也会影响其他机器人接下来的决策。这使得多机器人协作成为强化学习和机器人领域长期以来的核心难题。核心原因在于:世界不再由单一策略驱动,而是由多个智能体共同决定。这带来了两个关键挑战:

因果结构复杂化:多个机器人同时作用于环境,导致动力学模型需要同时处理多个「因果源」,学习难度显著增加。强行共享策略易产生梯度冲突。决策 - 世界闭环被打破:在单机器人场景中,动作 → 环境变化之间形成稳定闭环;而在多机器人系统中,每个机器人都受到其他机器人的影响,预测误差会迅速累积。

图 1:多智能体世界建模困境:在多个 robot 的作用下,足球去向哪里?

SeqWM:多机器人世界模型的顺序式因果分解

现有方法通常把多机器人系统看作一个整体:所有机器人的状态和动作会同时输入到一个统一模型中,进而预测未来环境变化。然而,随着机器人数量增加,这种联合动力学建模的复杂度会迅速增长,使得模型难以稳定学习和泛化,也增大了部署的难度。

SeqWM 从一个全新的视角重新思考了这个问题。研究团队提出一个关键观察:

多机器人世界的变化,其实可以被建模为多个机器人依次作用于环境的过程。

基于这一观察,SeqWM 不再试图学习一个复杂的整体动力学函数,而是将联合动力学分解为一系列顺序条件化的状态转移过程。每个机器人只需要学习:在已知前序机器人动作的条件下,自己对世界状态演化所产生的边际因果贡献。形式上,原本的联合动力学被重写为顺序条件化的分解形式:

这种顺序式分解将复杂的多机器人动力学转化为一系列条件预测问题,从而显著降低了建模难度。

图 2:R1 先规划并共享未来轨迹,R2 据此调整路径,实现对房间的协同探索

在轨迹预测阶段,

每个机器人维护一个独立的世界模型每个模型只建模自身对环境的边际贡献后续机器人在预测时条件化前序机器人的预测结果

这种结构使得复杂的联合动力学被拆解为多个简单且可扩展的局部预测过程。

在动作规划阶段,SeqWM 使用 MPPI(Model Predictive Path Integral) 进行动作规划。机器人按照顺序进行规划,并共享预测轨迹。这意味着:后续机器人在规划时,可以提前知道前序机器人的未来计划。这种机制形成了一种显式的意图共享,显著增强协作能力。

图 3:MPPI-based planner 示意图

仿真实验对比

研究团队在两个具有挑战性的多机器人环境中评估了 SeqWM:

Bi-DexHands:双灵巧手协作操作任务Multi-Quadruped:多四足机器人协作任务

实验结果表明:SeqWM 在所有任务中均显著超过现有方法,在性能与样本效率方面均取得领先。

图4:仿真实验可视化

协作行为如何自然产生?

SeqWM 不仅提升了任务成功率,还产生了多种自然协作行为。例如:

预测适应(Predictive Adaptation):机器人能够根据伙伴预测的未来动作提前调整动作。例如在接抛球任务中,接球机器人会提前移动到预测落点附近,从而稳定完成抓取。

角色分工(Role Division):在推箱子任务中:一只机器人负责 主要推进力,另一只机器人负责 方向调整。这种分工并非人工设计,而是在训练中自然产生。

Sim-to-Real 真实机器人实验

为了验证算法在真实环境中的效果,研究团队还将 SeqWM 部署到了 Unitree Go2-W 机器人平台。实验包括:推箱子、通过窄门、引导目标机器人:

实验结果表明,真实机器人系统中的协作行为与仿真结果高度一致,验证了 SeqWM 的实际应用潜力。

总结

SeqWM 提出了一种新的多机器人世界建模方式:通过顺序因果结构分解多机器人动力学。这一设计使得复杂的多机器人协作问题变得更加可建模、可规划,也为真实机器人系统提供了一种可扩展的解决方案。随着世界模型与强化学习技术的发展,未来的机器人系统或许能够像人类团队一样,通过共享意图与协同行动完成更加复杂的任务。