找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 41|回复: 0

NovaFlow从生成视频中提取动作流,实现零样本操控

[复制链接]

2101

主题

0

回帖

6491

积分

管理员

积分
6491
发表于 2025-10-9 14:05:04 | 显示全部楼层 |阅读模式




https://mp.weixin.qq.com/s/qolvGDUY22luJYzmq07tgw

核心思想:从 “观看” 视频到 “理解” 动作

传统的机器人学习范式,要么需要人类提供大量的示教数据(模仿学习),要么需要机器人在环境中进行大量的试错(强化学习),两者都效率不高且泛化能力有限。NovaFlow 的核心洞见在于:将人类指令的 “任务理解” 与机器人的 “底层控制” 彻底解耦。

研究团队假设,在互联网海量视频数据上训练出来的视频生成模型,已经学习到了关于世界如何运作的丰富常识和物理知识。比如,如何 “把杯子挂到架子上”,这个任务中物体间的相对位置关系和轨迹等信息,都已涵盖在视频模型中。因此,我们不再需要从头教机器人这些知识,而是可以通过一个简单的文本指令(例如 “把杯子挂到架子上” 或者 “把抽屉打开”)和一张现场照片,让视频模型生成一段展示该任务如何完成的 “教学视频”。

然而,原始的视频像素无法直接被机器人控制器使用。这里的关键挑战是如何将视频中非结构化的视觉信息,转化为机器人可以理解和执行的结构化指令。为此,NovaFlow 引入了一个核心的中间表征 ——可执行 3D 对象流(Actionable 3D Object Flow)。

这种 “动作流” 本质上是目标物体在三维空间中运动轨迹的点云集合。它只描述物体本身应该如何移动,而与执行任务的是人手还是机械臂无关。这种以物体为中心的设计,是 NovaFlow 能够跨不同机器人平台(embodiment-agnostic)实现泛化的关键。



图 1:NovaFlow 框架概览。给定任务指令,模型生成一段任务视频,并从中提炼出与机器人观测对齐的 3D 可执行对象流,进而生成机械臂轨迹,完成对刚性、关节体和可变形物体的操作。

NovaFlow 的工作流程:两步走

NovaFlow 的整体框架由两个核心组件构成:动作流生成器(Flow Generator) 和动作流执行器(Flow Executor)。

动作流生成器:四步将视频 “翻译” 成 3D 动作指令

这个模块的目标是,根据用户输入的一句自然语言指令和一张初始场景的 RGB-D 图像,生成目标物体的 3D 动作流。整个过程无需任何人工干预,完全由一系列预训练好的视觉模型完成。



图 2:动作流生成器。从初始图像和文本提示生成视频,再通过一系列视觉模块将其提炼为以对象为中心的 3D 可执行流。

1.视频生成:首先,使用像 通义万相 或 可灵 AI 这样的 SOTA 视频生成模型,根据初始图像和文本指令(如 “打开抽屉”)生成一段几秒钟的视频。



https://mp.weixin.qq.com/s/qolvGDUY22luJYzmq07tgw

2.2D 到 3D 提升:由于生成的视频是 2D 的,而我们在 3D 世界中执行任务,我们需要将 2D 信息提升到 3D 空间。NovaFlow 通过单目视频深度估计算法,为视频的每一帧生成对应的深度图。由于单目深度估计模型会产生系统性误差,研究团队额外利用了第一帧真实的深度图来对估计的单目深度视频进行校准。

3.3D 点追踪:在有了 3D 视频后,使用 3D 点追踪模型,密集地追踪视频中每一个点在三维空间中的运动轨迹。

4.对象分割与提取:上一步追踪了整个场景的运动。为了得到 “对象” 的动作流,NovaFlow 使用开放词汇的对象检测和分割模型(如 Grounded-SAM2),将视频中的目标物体(如抽屉)从背景中分割出来。最后,只保留属于该物体的运动轨迹,就得到了最终的、纯净的 “可执行 3D 对象流”。

值得一提的是,由于视频生成模型有时会产生不符合物理规律或指令的 “幻觉” 内容,研究团队还引入了一个拒绝采样步骤:并行生成多个候选视频及其动作流,然后利用一个强大的 VLM 模型(如 Gemini)来评估哪个动作流最 “合理”,并选择最优的那个用于后续执行。



动作流执行器:将 3D 动作流转化为机器人动作

这个模块负责将抽象的 3D 对象流 “翻译” 成机器人可以执行的具体动作序列。它针对不同类型的物体,采用了不同的策略:

“真金火炼”:实验效果如何?

研究团队在 Franka 机械臂(桌面操作)和波士顿动力的 Spot 四足机器人(移动操作)上,对 NovaFlow 进行了广泛的实验验证。任务涵盖了刚性物体(挂杯子、插木块)、铰接物体(开抽屉)和可变形物体(拉直绳子)三大类。



图 3:真实世界桌面操作任务的成功率对比。NovaFlow(紫色)在所有零样本方法中表现最佳,甚至优于使用 10 个和 30 个示教数据训练的模仿学习策略(DP)。

实验结果令人印象深刻:

1.超越同类零样本方法:与 AVDC、VidBot 等同样不需要示教数据的零样本方法相比,NovaFlow 在各项任务上均取得了最高的成功率。这得益于其精确的 3D 动作表示,而其他方法多依赖 2D 光流,缺乏 3D 感知和长期一致性。

2.超越需要数据的模仿学习方法:更引人注目的是,NovaFlow 的表现甚至超过了使用 10 个乃至 30 个真实示教数据为每个任务单独训练的模仿学习基线(Diffusion Policy)。这充分证明了从生成视频中提取常识知识的巨大潜力,成功绕过了对真实机器人数据的依赖。

挑战与未来展望



尽管 NovaFlow 取得了显著成功,但研究也揭示了当前方法的局限性。失效分析表明,大部分的失败并非发生在 “理解” 阶段,而是发生在物理执行的 “最后一公里”,如抓取失败、或因意外的物理动态导致的执行偏差。这暴露了当前开环(open-loop)规划系统的脆弱性 —— 计划制定后便不再根据实际情况调整。未来的一个重要研究方向是开发闭环反馈系统。通过实时感知环境反馈,动态地调整或重新规划生成的动作流,从而使系统对现实世界中的不确定性和干扰更加鲁棒。

总而言之,NovaFlow 为机器人自主操作提出了一个全新的、无需示教的框架。它通过解耦任务理解与底层控制,并创造性地利用大型视频生成模型作为常识知识的来源,有力地证明了在没有机器人特定数据的情况下实现通用、泛化操作的可能性。这或许将是我们向着能够 “举一反三” 的通用机器人迈出的关键一步。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|花享网 ( 琼ICP备2024046163号-1 )

GMT+8, 2025-12-1 19:53 , Processed in 0.207945 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表