Back to Feed
总结
12月31日,智元机器人宣布发布Act2Goal方案,提出以“目标条件世界模型”驱动的端到端操作框架,让机器人在执行前预测从当前到目标的未来视觉轨迹,并据此生成动作,实现长时序任务的更稳定规划与对齐。方案引入多尺度时域哈希(MSTH)兼顾局部精细控制与全局路径,并以大规模离线模仿学习训练;在真实交互中结合HER与仅更新LoRA的在线自我提升,官方称面对陌生高难任务可在数分钟内将成功率由30%提升至90%,强调零样本泛化与快速适应能力。
正文
IT之家 12 月 31 日消息,智元机器人今日宣布发布 Act2Goal 方案,世界模型让机器人真正"懂"得如何达成目标。 据了解,Act2Goal 是一个新的操作算法,也是一种让机器人"以终为始"的全新思维方式。不同于传统机器人机械地执行死板指令,Act2Goal 引入了"目标条件世界模型"。Act2Goal 的核心在于将目标条件世界模型与动作生成策略统一于端到端框架,实现对任务演化过程的结构化理解。在每次操作前,系统不仅感知当前状态和目标状态,还通过世界模型预测从当前到目标的未来视觉轨迹,为动作专家提供连续、多尺度的规划依据。 IT之家附官方介绍如下: 给机器人一张"目标照片",它就能自己想办法把面前的场景变成照片里的样子吗? 智元具身研究中心给出了肯定的答案。 Act2Goal-- 这不仅仅是一个新的操作算法,更是一种让机器人"以终为始"的全新思维方式。 不同于传统机器人机械地执行死板指令,Act2Goal 引入了"目标条件世界模型"。这意味着,机器人不再只是"看一步走一步",而是拥有了预见未来的能力 -- 在真正动手之前,它已经在大脑中构建了从现状通往目标的完整因果链条。这种将视觉推理与动作控制合二为一的端到端架构,让 Act2Goal 能够在从未见过的环境和物体面前,展现出惊人的零样本泛化能力。 更令人兴奋的是,Act2Goal 具备"自我进化"的本能。它不需要人类手把手教(无奖励信号),就能在真实世界的交互中,快速"复盘"自己的行为轨迹。实验数据显示,面对高难度的陌生任务,Act2Goal 仅需数分钟的在线自我磨练,成功率就能从 30% 提升至 90%。 所见即所向,让机器人的每一次行动,都精准地通往目标。 在视觉信息能够直接反映任务目标的场景中,使用目标图像作为条件输入能够更直观地指导机器人动作。然而,当面临长时序操作、复杂物体交互或训练数据分布外环境时,这类方法往往难以保持稳定性能。现有目标条件策略通常只关注当前状态与目标状态,而缺乏对两者之间任务过程的显式建模,主流方法多采用直接映射的范式,将当前观测与目标状态输入策略网络以预测动作,这使得机器人难以判断执行进度,也容易在任务延长或环境变化时出现误差累积。Act2Goal 通过在动作生成之前引入目标条件世界模型,对从当前状态到目标状态的演化过程进行建模,并生成一系列中间视觉状态作为任务进程的结构化表征,为机器人动作提供明确操作锚点,使机器人能够更稳定地执行长时序任务。 01、 端到端目标条件策略: 从目标感知到动作规划的统一 Act2Goal 的核心在于将目标条件世界模型与动作生成策略统一于端到端框架,实现对任务演化过程的结构化理解。在每次操作前,系统不仅感知当前状态和目标状态,还通过世界模型预测从当前到目标的未来视觉轨迹,为动作专家提供连续、多尺度的规划依据。通过这种方式,目标不再是静态终点,而是一条可感知、可跟随的演化路径,从而显著提升长时序操作的稳定性与泛化能力。这一范式带来了两个关键优势: 长时序任务中保持高精度与全局对齐: 端到端设计结合多尺度时间规划,使机器人既能精确执行短期动作,又能保持整体目标方向一致。 零样本泛化与快速适应新场景: 系统能够在未见过的物体、目标配置或复杂环境中稳定执行,并通过在线自我提升机制快速适应新任务,进一步增强鲁棒性和可扩展性。 02、 多尺度时域哈希(MSTH): 兼顾短期精细操作与全局合理规划 为了在长时序任务中同时处理精细动作和全局规划,Act2Goal 引入了多尺度时域哈希(Multi-Scale Temporal Hashing, MSTH)机制。系统将规划过程划分为: 短时精细段(Proximal): 连续高频采样,用于精确控制机械臂动作; 长时粗粒段(Distal): 自适应采样,用于全局路径规划和目标对齐。 这种设计使机器人在复杂操作中能够兼顾局部动作精度与整体目标方向,有效防止误差累积和目标偏离。 MSTH 可同时应用于世界模型的视觉规划与动作专家模块的动作规划。 目标驱动的世界模型基于 MSTH 规则生成操作视频 03、 离线模仿学习 为了让 Act2Goal 具备强大的泛化能力,系统首先通过大规模离线模仿学习进行训练。系统微调预训练的世界模型,使其能够生成从当前状态到目标状态的多视角、多尺度视觉轨迹,并遵循 MSTH 规则。动作生成模块与世界模型联合训练,通过参考轨迹预测生成可执行动作。这种联合训练保证了视觉轨迹预测不仅真实可信,而且能够有效指导动作生成,为动作规划奠定基础。系统对整个端到端模型进行行为克隆微调,使从视觉感知到动作生成形成完整闭环。通过以上训练,Act2Goal 学会根据当前状态和目标状态预测未来轨迹,并生成可执行动作,从而具备良好的泛化能力和长期操作稳定性。 部署 Act2Goal 模型的 G01 机器人在多个域外任务上展现出色性能 04、 在线自我提升 尽管离线训练使系统具备较强的泛化能力,但在真实环境中面对新任务、未知物体或复杂操作链时,机器人仍可能遇到性能下降。为此,Act2Goal 引入在线自我提升机制,利用回顾性经验重放(HER)实现自主性能优化。 在执行过程中,机器人会自动收集每一步的状态、动作及执行结果,并将轨迹重新标注为新的目标示例,存入回放缓冲区。无论任务是否成功完成,系统都能利用这些数据进行端到端微调,仅更新新增的 LoRA 层参数,基础模型保持冻结。 通过这一机制,机器人能够在未见过的环境和目标中快速适应,实现零样本泛化与长期稳定操作,为复杂任务提供强大的鲁棒性和可扩展性。 部署 Act2Goal 模型的机器人在线练习绘制未见过的图案,持续提升性能 Act2Goal 的核心贡献在于重新审视了目标条件操作中的一个基本问题:从当前状态到目标状态之间,机器人是否真正理解过程?通过在策略中显式引入目标条件世界模型,并结合多尺度时间建模与深度融合机制,我们为目标条件机器人操作提供了一种新的建模范式。 我们相信,这种"先理解世界如何变化,再决定如何行动"的思路,将为更通用、更可靠的机器人系统提供重要支撑。
发布时间: