该研究成果由北京大学和加州大学洛杉矶分校共同完成。第一作者蔡少斐为北京大学三年级博士生,通讯作者为北京大学助理教授梁一韬。该工作基于 MineStudio 开源项目,一个全流程简化版 Minecraft AI Agent 开发包,相关代码均已在 GitHub 上开源。
在 Minecraft 里能打怪、建房、探险的 AI 已经够厉害了,但你见过能一跳跨进另一个游戏世界、直接上手操作的 AI 吗?
北京大学最新发布的智能体 ROCKET-2 做到了这一点。它仅在 Minecraft 上预训练,却能直接泛化到多个从未见过的 3D 游戏环境中,比如 “毁灭战士(VizDoom)”、“DeepMind Lab” 甚至是 “虚幻 5 引擎”,真正实现了零样本跨游戏迁移。
论文链接:https://arxiv.org/pdf/2503.02505
项目主页:https://craftjarvis.github.io/ROCKET-2
代码仓库:https://github.com/CraftJarvis/ROCKET-2
MineStudio:https://github.com/CraftJarvis/MineStudio
ROCKET-2 效果是这样的:
ROCKET-2 在 Minecraft 中遵循人类指令完成任务的示例
(画面为智能体视角,右上小图为目标第三视角,其中分割掩码表示交互目标)
Minecraft AI 首次对末影龙造成了伤害
Minecraft AI 首次涌现出 “搭桥” 能力
ROCKET-2 零样本适配虚幻 5 引擎
ROCKET-2 零样本适配毁灭战士
ROCKET-2 零样本适配 DeepMind Lab
方法介绍
研究团队首先从 “指令空间” 这一核心问题入手。
所谓指令空间,是指人类与智能体沟通的接口。一个设计良好的指令空间,不仅能帮助人类更高效地表达意图,也能显著提升智能体的理解效率与训练效果。
提到指令空间,许多人第一时间会想到自然语言。语言的确是人类构建复杂社会关系、实现高效协作的关键工具。然而,该研究团队指出,自然语言作为指令媒介在智能体交互中存在三大显著劣势:
1. 表达空间关系低效:
例如,当我们希望智能体拆除房屋中某块特定位置的砖块时,需要使用大量方位词和空间描述来构造完整句子,这种方式不仅冗长,还容易引发歧义。
2. 难以泛化到新视觉概念:
一旦游戏中出现新的物体或怪物(如版本更新或新关卡设计),语言模型往往无法利用已有词汇完成对齐,这严重限制了指令的可泛化性,是阻碍 AI 泛化到新游戏环境的关键因素之一。
3. 训练数据标注成本高昂:
要训练一个能理解语言的智能体,通常需要对大量视频进行精细标注。这个过程极其耗时且难以扩展,成为限制语言指令规模化应用的重要瓶颈。
基于上述问题,该团队进一步探索了无需语言的指令形式,并提出了 “跨视角目标对齐” 的新范式,构建出一种更具泛化性、可扩展性的指令空间。
跨视角目标对齐示例图
针对传统指令空间存在的诸多局限,该团队创新性地提出了一个名为 “跨视角目标对齐” 的新概念。
这一方法强调,人类用户和智能体以不同视角对同一环境进行观测:其中,人类用户可以在自身视角中通过分割掩码标注目标物体;而智能体则同时接收人类视角及其对应的目标掩码,以及自身视角下的环境观测。通过跨视角的信息对齐,智能体能够建立起目标在不同视角之间的空间映射关系,进而推断出人类的交互意图,并输出相应的动作序列完成交互任务。
这种设计的最大优势在于:指令空间被重构为一种语言无关、领域无关的表达方式,使得指令理解能力不再依赖自然语言或手工设计的命令系统,而是由智能体对 3D 空间的理解能力与跨视角对齐能力共同决定,为泛化至更多 3D 场景提供了新的可能性。
此外,这一机制也极大降低了人机交互的门槛:人类用户只需通过简单的 “指指点点” 操作,即可表达复杂的交互意图,无需费力描述或理解繁琐的空间关系,进一步推动了更自然、高效的人机协作方式的发展。
尽管本文提出的指令空间概念功能强大、泛化能力突出,但一个关键问题随之而来:它真的容易训练吗?
研究团队指出跨视角目标对齐在实际训练中面临诸多挑战,比如不同视角之间的几何形变、物体遮挡、以及来自环境中其他物体的干扰等。这些因素导致智能体难以稳定地理解人类所指示的目标,仅仅依赖常规的行为克隆损失(Behavior Cloning Loss)进行模仿学习是远远不够的。为此,团队从跨视角交互中提出了一个关键假设:
人类和智能体视角中观测到的目标物体应具有一致性(交互一致性)。
基于这一假设,他们设计了两个辅助任务与对应的损失函数,以提升训练稳定性和泛化能力:
1. 跨视角一致性损失(Cross-View Consistency Loss):
要求智能体从自身视角出发,准确预测目标物体在图像中的中心位置与边界框,从而学习对目标的空间感知能力。
2. 目标可见性损失(Target Visibility Loss):
要求智能体判断目标物体在其当前视角下是否可见,帮助其在遮挡场景中保持鲁棒的目标感知能力。
通过引入这两项辅助任务,ROCKET-2 在训练中有效克服了跨视角的不确定性,使得指令空间的强大能力得以真正落地。
ROCKET-2 模型架构
如图所示,ROCKET-2 的整体架构由 Spatial 模块与 Temporal 模块共同构成。其中,Spatial 模块采用非因果(non-causal)Transformer 编码器,用于提取单帧图像中的空间特征;而 Temporal 模块则使用因果(causal)Transformer,用于建模随时间演化的动态信息。该研究强调,Temporal 模块在时序建模中的作用至关重要。它能够帮助模型在目标被暂时遮挡的情况下,依然维持对目标物体的追踪与理解,从而保证智能体的行为具备连续性和稳健性。
性能 - 效率曲线
实验及结果
在对空间细节要求极高的 Minecraft Interaction 任务上,研究团队将 ROCKET-2 与当前主流的 Minecraft 智能体,包括 ROCKET-1、STEVE-1 和 GROOT-1 进行了系统对比。
实验结果显示,ROCKET-2 在大多数任务中均达到了接近 100% 的最新 SOTA(State of the Art)水平,在性能上实现了显著突破。更令人瞩目的是,其推理速度相比 ROCKET-1 提升了 3 至 6 倍。这一优势主要得益于指令空间设计的优化:ROCKET-1 依赖外部的物体追踪模型,在每一帧都需实时生成分割掩码,计算开销较大;而 ROCKET-2 只需在交互初始时生成一次目标掩码,大幅降低了计算成本。
此外,与基于语言指令的智能体 STEVE-1 相比,ROCKET-2 实现了高达 80% 的绝对性能提升,充分验证了其跨任务、跨场景的泛化能力和更高效的指令理解方式。
人机交互案例分析
研究团队还分析了一些典型的人机交互案例,发现即使在智能体初始视角中无法直接观测到人类所指示的目标物体时,它仍能凭借对环境中 “地标性建筑” 或显著参照物的识别,合理推断出目标物体可能的位置,并自主导航前往完成交互任务。
ROCKET-2 的推出标志着交互式智能体向前迈出了关键一步。它不仅在 Minecraft 中展现出强大的生存、战斗与建造能力,更首次实现了 3D 游戏间的零样本迁移,突破了长期以来 AI 难以跨场景泛化的瓶颈。通过创新的跨视角目标对齐机制与高效的架构设计,ROCKET-2 重新审视了人机交互范式,也为构建面向未来的多模态通用智能体奠定了基础。
从 Minecraft 到虚幻 5,从像素世界到物理模拟,ROCKET-2 展示了 AI 主动理解、泛化与交互的全新可能性。或许在不远的将来,跨平台、跨任务、跨世界的 “万能 AI” 将真正走入现实。