VLOA大模型系列解读(二):通用操作模型——链接世界模型,将3D动态点云轨迹化为跨本体的精准物理动作
发布时间:
2026-05-19 15:52
来源:
如果机器人能“预演”未来,那么它该如何把想象变为现实?这正是RoboScience机器科学 VLOA大模型中「通用操作模型」所要回答的核心问题。
上一篇中,VLOA的「具身世界模型」用3D点云轨迹打开了物理认知的黑箱——让机器人提前“看见”物体将如何移动、接触、形变。但想象再精准,若无一双可靠的“手”去执行,一切仍是空中楼阁。
作为VLOA的第二大核心引擎,「通用操作模型」的使命正是:接收世界模型生成的3D点云轨迹,将其转化为可驱动任意机器人的接触点、力控与关节指令,让每一次“预演”都能在物理世界中精确复现。
当前,操作模型普遍面临三大瓶颈:换一个不同的物体就失效的泛化困境;对精细操作无能为力;长程任务中一步错、步步错的累积误差。行业内的操作模型多为“原子技能库”,即将任务拆解为抓取、放置等独立技能,每个技能对应一个专用模型。这种碎片化方案扩展性差,难以应对新任务。
RoboScience机器科学「通用操作模型」是一个参数超10亿(1B)的大模型,在所有技能上联合训练,形成统一的操作表征。它无需为新物体或新动作单独训练子模型,凭借共享的物理常识与轨迹先验,即可实现跨物体、跨任务和跨机器人本体的通用操作能力。该模型从底层重新设计,通过“物理引擎-仿真数据-端到端训练”的高效闭环,系统性地解决了泛化性与灵巧操作难题,让机器人真正拥有通用操作能力。
从3D点云轨迹到精准动作:
一条无损的转化链路
「通用操作模型」的输入,正是「具身世界模型」输出的Object Trajectory(物体轨迹),即一串带有时间戳的3D物体点云和环境点云,描述了物体未来的位置、姿态与形变,以及抓取环境的变化。
通用操作模型的推理速度可达到3fps以上,能够基于物体和环境的点云输入实现对机器人关节角度的闭环控制。与传统策略依赖大量成对动作数据不同,我们的模型是轨迹条件化的:它无需重新学习“该去哪里”,只需掌握“如何到达那里”并对物体进行操作。
世界模型提供的轨迹已经包含了丰富的几何与物理先验,操作模型仅需将其翻译为底层控制信号。这使得模型在跨物体、跨场景时具有惊人的泛化效率。

「通用操作模型」架构图
这一架构赋予模型三大核心亮点:
亮点一:
任意物体抓取
跨材质、跨形状的灵巧操作
面对不同几何形状与物理属性的物体,模型能够实时识别其三维形态和相关物理参数,自动选择最优的接触点与夹持力,生成适配的抓取策略。无论是桌面上独立摆放的物体,还是收纳箱、碗碟中堆叠拥挤的杂乱环境,模型均能实现稳定抓取。
▎任意杂乱环境的灵巧抓取
下图展示了模型在两类杂乱场景下的差异化抓取表现:
桌面物体:面对异形小鹿玩具(外形不规则、有突出角部),模型自动识别其几何特征,选择躯干这样稳定且不损坏装饰部分的抓取点,以适配的夹持力完成抓取;瓶装番茄酱则夹持瓶身中段,保持重心平衡,防止倾斜滑落。




抓取后,模型按类别将物体放置到指定区域,实现从抓取到分类的全自动流程。这一能力体现了模型对复杂场景、拥挤环境的适应力,以及对不同物体物理特征的深刻理解。
收纳箱内物体(inbox):方形零食盒被其他物体环绕时,模型通过调节握姿,在狭窄空间中完成抓取而不扰动周边物体;面对在碗中的异形开瓶器,模型自我调整灵巧手轻握长柄从碗里取出。




▎跨本体灵巧抓取
模型与机器人硬件完全解耦,同一套操作策略无需任何调整,即可直接迁移至不同构型的灵巧手——无论是2指、3指还是5指,模型均首先通过视觉感知生成物体的3D点云,精确捕获其三维几何形态与空间位姿,进而自适应地生成最优抓取姿态与力控策略。

以X-hand与LEAP Hand为例,两者在机械设计上差异显著:X-hand采用全齿轮准直驱传动,12个主动自由度配置,单手最大握力80N,可举起25kg重物;LEAP Hand则采用肌腱驱动与四连杆运动学设计,总自由度达16-20个。




两款灵巧手的自由度分配、驱动方式、尺寸规格各不相同,但通用操作模型可在两者上自适应地生成青椒模型的包覆抓取与西瓜瓣模型的精准抓取策略。




亮点二:
精细物体操作
多模态接触感知的极致
开信封需要毫牛级的切入力度,立硬币需要动态平衡控制,抓取薯片需避免压碎,用针管注射液体需精确控制推注速度与剂量——这些对力控精度、接触力感知和实时调整能力要求极高的任务,模型均能稳定完成。
模型融合了视觉、触觉、力觉等多模态感知信号,在执行过程中实时调整:
▎精细操作演示
立硬币:通过动态平衡力将硬币稳稳立于桌面。 开信封:精确控制切入角度与力度,沿边缘划开不撕裂纸张。


抓薯片:轻柔捏取边缘,避免压碎,保持薯片完整。
针管注射:精准控制推注速度与力度,实现液体的定量稳定注入。


抓海苔/蛋壳/雪糕筒:轻柔捏取边缘,避免压碎,保持海苔/蛋壳/雪糕筒完整。



亮点三:
解决长程任务与闭环操作
多步骤连贯执行 + 动态环境适应
模型具备处理复杂长程任务与动态闭环操作的核心能力。以下三个典型demo展示了其在多步骤规划、精细力控与环境适应上的突破:
▎长程任务与闭环操作演示
家具拼装:模型读取说明书,自主分解多步骤任务,实现双臂协同完成高精度插接与旋转配合;通过实时力反馈动态调整策略,即便中途被拆解也能自动恢复并接续完成。
传送带动态抓取:模型实时检测运动物体的速度与位姿,闭环调整抓取点与接近轨迹,在物体持续移动中完成稳定抓取,适应速度波动与姿态变化。

这一能力的核心在于模型不仅能够规划多步骤的连贯动作,还能在动态环境中实时感知、决策与调整,通过统一的框架分析不同场景下的物理接触(如力反馈、变形预测、运动规划),无需为每种对象或机器人单独开发算法,真正实现“手眼协调”的闭环操作。
通过以上的可视化案例,我们让通用操作模型从一个“黑箱”变成了一个可解释、可调试、可信赖的执行引擎。每个视频中的动作细节,都是模型内部实时决策的直接映射。
四大能力:让操作更可靠
上述案例所展现的跨物体抓取、精细力控、长程执行等能力,根植于模型内在的四项核心技术特性。这些特性确保「通用操作模型」不仅是“灵活”,更是“可靠”。
·全空间物体支持:模型支持刚体、铰链体、1D/2D/3D可形变体等全空间物体的各类操作任务,覆盖从刚性抓取到柔性形变的完整谱系。
·跨本体与闭环操作:模型与硬件完全解耦,同一套策略可无损迁移至机械臂、人形机器人、灵巧手等不同本体。同时支持闭环操作(closed-loop),在执行过程中持续接收视觉、触觉、力觉等多模态感知数据,实时调整动作,确保在动态环境中依然精准。
·物理仿真闭环:通过“物理引擎-仿真数据-端到端训练”的高效闭环,模型在虚拟环境中大规模预训练,习得丰富的物理交互技能。再经少量真机数据微调,即可快速迁移到真实场景,大幅降低采集成本。
·Scaling驱动进化:依托自研多模态物理引擎积累的10B(100亿次)高质量操作数据,模型在任意物体抓取、精细操作、长程任务上的成功率随数据规模扩大呈可预测的幂律提升。2026年目标构建1T(1万亿次)操作数据集,为持续进化提供不竭燃料。

以200M尺寸模型为例,随着训练抓取样本量的增加,模型成功率显著提升。

实验证明,随着模型尺寸的增加,模型成功率与抓取多样性(生成的成功抓取关节角的方差)也随之提升。
实验证明,随着模型尺寸的增加,模型成功率与抓取多样性(生成的成功抓取关节角的方差)也随之提升。
结语
至此,VLOA大模型的两大核心引擎已完整呈现:
「具身世界模型」:3D动态世界模型,用物体3D点云轨迹预演物理未来。其背后是超过100万小时以物体为中心的高维多模态视频数据(上千万clips),并以每周数十万小时的速度增长,目标2026年构建千万小时级全球领先视频数据集。
「通用操作模型」:通过“物理引擎-仿真数据-端到端训练”闭环,将轨迹转化为接触点、力控与关节指令,实现任意物体抓取、精细操作与长程任务。其背后是基于自研物理引擎积累的 10B(100亿次) 全空间物体操作数据,目标2026年突破 1T(1万亿次)。

两者通过Object Trajectory(物体轨迹)接口无缝协同,构建了从认知到执行的完整智能闭环。从海量视频与仿真数据中习得物理常识,到3D点云轨迹的精准预演,再到真实世界中任意物体、精细操作、长程任务的稳定执行——VLOA大模型正在重新定义通用具身智能的边界。
RoboScience机器科学致力于构建全球领先的具身智能大模型及本体产品。未来,我们的具身大模型将推动适用不同场景的机器人本体广泛应用于零售、物流、工业与家庭等领域,提供安全、智能的解决方案。