拓元智慧联合发布分层推理具身基础模型RoBridge，破解机器人“知行合一”难题

近日，全球物理空间智能AI应用领航者拓元智慧（X-Era AI）联合中山大学、鹏城实验室等顶尖科研机构重磅发布分层推理具身基础模型RoBridge。该模型在保持VLM语义理解优势的同时，成功将强化学习的过程技能成功率提升至新高度。

在开放式场景的机器人操作研究中，传统端到端视觉语言动作（VLA）模型虽能实现指令理解与动作输出的直接映射，却面临训练成本高昂（通常需要数十张GPU数周训练）、认知与执行割裂等根本性缺陷。针对这一核心问题，由梁小丹、林倞等知名学者提出的分层推理的具身基础模型RoBridge，仅需单张A100训练一天即可突破两大技术瓶颈：其创新设计的分层结构通过认知规划与物理执行的解耦，在保持VLM语义理解优势的同时，成功将强化学习的过程技能成功率提升至新高度。该架构由三级模块构成——基于视觉语言模型（VLM）的高级认知规划器（HCP）实现任务语义解析，不变可操作表示（IOR）构建符号化中间层，通用具身代理（GEA）负责物理执行。实验表明，RoBridge零样本泛化即可达成75%的新任务成功率，仅需5个真实样本即可实现模拟到现实（Sim2Real）的泛化成功率（83%），相较RDT、π0等基线模型提升超40%，为破解机器人"知行合一"难题提供了更高效可靠的解决方案。

论文：RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

项目地址：https://abliao.github.io/RoBridge

1.背景：机器人操作技术的双重困境

机器人操作技术长期受限于两大瓶颈：

1. 1程序性技能困境。

为了获得根据指令操纵对象的能力，RDT和π0等VLA模型通常采用数据驱动的轨迹拟合方法。然而，当面对环境变化时，包括波动的照明条件、相机姿态偏差和环境变化，这些方法经常遭受灾难性的性能下降。强化学习虽然稳健，但具有试错性和低学习效率的特点，使其在实际环境中的适用性较低。

图1. 程序性技能方法、陈述性技能方法和RoBridge方法比较。

1.2 陈述性技能困境。

最近的工作将视觉语言模型（VLM）集成到机器人系统，如 ReKep和 OmniManip，它们使用多模态大模型来生成开放域任务的操作指令。虽然这些模型在理解方面表现出色，但它们缺乏具体经验，并且需要将输出限制为可执行动作。这种方法迫使语言模型在没有物理直觉的情况下处理时空推理，这通常会导致难以置信的任务规划。例如，在任务 “将块 A 放在块 B 上” 中，对空间的理解不足往往会导致这种方法产生致命缺陷的动作序列。

2. RoBridge框架

本文提出的RoBridge框架如图所示，主要包括三个核心组件：高层认知规划器（High-level Cognitive Planner, HCP）、不变可操作表示（Invariant Operable Representation, IOR）和通用具身智能体（Generalist Embodied Agent, GEA）。整体流程如下：首先，HCP根据观察信息和任务指令将复杂任务分解为多个原子动作；其次，针对每个原子动作，HPC结合基础模型生成IOR表示；最后，GEA基于该表示执行具体操作，整个过程通过闭环控制进行调节。各部分说明如下：

图2. RoBridge框架

（1）高层认知规划器（HCP）

HCP由视觉语言模型（如GPT-4o）和基础模型API（如GroundingDINO、SAM和Track-Anything）构成。给定当前RGB图像和指令，通过VLM将任务分解为若干原子动作，其中表示动作类型为操作对象，为目标位置（可选）。如图示例中，任务被分解为抓取黄色圆柱体、移动至圆形插槽等四个原子动作。HCP通过基础模型API进行对象分割，并结合传感器数据生成IOR表示。

（2）不变可操作表示（IOR）

每个原子动作对应的IOR表示由四元组构成：

其中：Mi 包含夹爪、操作对象和目标的三视角掩膜。Di 包含对应的一视角掩膜深度信息。Ci 包含末端执行器位姿和运动方向约束

通过GroundingDINO和SAM实现对象分割，结合VLM进行对象选择。对于存在方向约束的任务（如打开抽屉），HCP提供归一化方向向量。IOR表示具有领域不变性，可有效降低环境变化对模型的影响。

（3）通用具身智能体（GEA）

在每个时间步t生成更新后的，通过策略函数映射为机械臂动作。针对“reach”类动作采用运动规划，其他复杂动作结合强化学习与模仿学习进行训练。

（4）闭环控制采用双频更新机制：

- 高频控制：通过Track-Anything实时更新掩膜和深度

- 低频控制：结合GPT-4o和夹爪状态判断任务状态（成功/失败/正常），失败时重新生成

3. 通用具身智能体训练

如图所示，训练过程分为三个阶段：

图3. 通用具身智能体训练示意图。

（1）强化学习阶段

为每个任务训练专家策略，引入机械臂位姿、物体形状和相机偏移等领域的随机化以提升鲁棒性。

（2）模仿学习阶段

基于专家数据训练通用策略，输入为广义交互表示。新增以下领域随机化：

1. 深度图增强：高斯偏移、模糊、随机掩膜

2. 掩膜增强：随机偏移、噪声注入

（3）持续技能聚合

采用改进的DAgger算法解决模仿学习的误差累积问题（算法1）：

1. 初始化各任务权重为均等值

2. 定义分段函数将奖励映射为权重调整值

3. 迭代过程中动态调整任务采样频率，优先采集困难任务

4. 记录失败轨迹并由专家生成修正数据

4. 实验

4.1 架构与训练

我们为每个任务单独训练强化学习专家策略，采用DRQ-v2算法进行训练。输入包含RGB图像、机器人本体感知和任务独热编码，输出低层级动作。通用智能体采用与DRQ-v2相同的网络架构，输入为不变可操作表示（IOR），其中原子动作采用独热编码表示。

4.2 硬件配置

真实实验采用Kinova Gen3机械臂，配置两个Realsense D435i相机：腕部相机提供第一视角，固定相机提供第三视角。设计四类任务：(1)物体抓取， (2)平面清扫，(3)按钮按压， (4)抽屉开启。前两类测试未见物体，评估泛化能力。另设计多阶段积木插槽任务，评估长时程任务处理能力。

图4. RoBridge 在真实任务中表现卓越，适应真实复杂环境，展现良好泛化能力。

4.3 仿真基准

在Metaworld和Robosuite仿真环境中进行测试。Metaworld选取50个任务，在零样本泛化测试中35个用于训练，5个用于零样本测试任务。

4.4 基线方法

DRQ-v2：多任务强化学习基准

SayCan：基于LLM的技能规划

PSL/ManipGen：动作级技能库扩展方法

ReKep：关键点推理方法

RDT/π0系列：端到端扩散模型方法

4.5 仿真结果

下表显示在Metaworld基准测试中，RoBridge平均成功率82.12%，较最优基线提升11.28%。在背景/光照/色彩/视角变化下均表现最佳鲁棒性。

4.6真实场景结果

下表显示在真实任务中，RoBridge平均成功率83.3%，长时程任务平均完成阶段数3.0（表3）。可视化结果显示相比π0和ReKep，本方法能稳定处理复杂物理交互。

图5. 真实机器人实验。

4.7 零样本任务泛化

下表显示在5个全新任务（物料分拣/物体取出/手柄按压/托盘滑动/清扫入库）中，RoBridge平均成功率75%，展现优异的零样本迁移能力。

5. 总结

本文提出了RoBridge，一种基于分层认知架构的机器人操作基础模型，通过突破端到端VLA模型的瓶颈，以单张A100仅需1天训练的高效范式实现三大突破：其一，通过分离高层语义理解与底层物理控制，将VLM的开放场景认知优势与强化学习的精确操作能力深度融合；其二，创新引入不变可操作表示（IOR）作为符号化中间层，有效解决传统模型因跨模态特征错位导致的"脑手不一"问题；其三，零样本泛化即可达成75%的新任务成功率，仅需5个真实样本即可实现模拟到现实的泛化成功率（83%），相比RDT、π0等基线模型提升超40%。该架构通过高级认知规划器（HCP）、IOR符号桥梁和通用具身代理（GEA）的三级协同，在显著降低训练成本的同时，显著提升开放式任务的操作鲁棒性，为破解机器人"知行合一"难题提供了可扩展的技术路径。

作为全球领先的物理空间智能AI应用服务商，拓元智慧持续攻关具身智能核心技术，逐步构建具身智能通用能力。此次分层推理具身基础模型RoBridge的发布，标志着拓元智慧在具身智能通用能力建设上的又一里程碑。

未来，拓元智慧将继续深化与学术界、产业界的协同创新，以“物理空间智能引擎”为核心，推动具身智能技术在实体经济的规模化落地。

关于拓元智慧

拓元智慧（X-Era AI）由AI技术领域国际知名专家团队创立于2022年。公司聚焦于研发新一代物理空间智能引擎，打造线下零售、空间设计、工业制造领域的AI应用与新生态，构建具身智能通用能力。公司秉持技术与业务闭环的双轮驱动，以“端云协同”的服务框架，推动AI模型从数字空间迈进物理世界，拓展人机共荣的新纪元。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

猜你喜欢

销量销额10倍增长！MOVA业绩猛增创红利

宝尊全渠道战略持续深化，店铺运营多渠道客户占比同比提升

14英寸高性能轻薄本标杆之作华硕天选Air 2025首发预约

从独行者到播种者——光启技术董事长刘若鹏的22年“超材料”产业化之路

华为兆瓦超充，纯电重卡的充电焦虑终结者

从无感支付到营养大数据，海亮科服的科技守“胃”战

只需提问即可生成周报、总结飞书发布AI新功能知识问答

有电储能：实力为基，科技为本，打造最值得信赖的便携储能品牌

2025 XCOPS智能运维管理人年会在广州圆满落幕

国际顶会ACL录用九章云极DataCanvas科研论文破解语言模型类比推理难题

“技术共生”成趋势，中企成欧洲车企智能化升级的重要推动力

纵行科技携全链路国产化技术亮相“2025天开论坛”

太空上新携手护舒宝手写祝福上火箭致敬航天她力量

龙环汇丰总裁索永鑫参加第六届“数智银行家”培养计划，探索金融数字化转型新路径

施耐德电气出席2025能源电力转型国际论坛，以科技创新助力新型电力系统建设

2024游戏安全白皮书：对抗激烈！PC游戏外挂功能数增长超149%，超85%移动外挂为定制挂

2379元起！来京东购iQOO Neo10 Pro+可享国补叠加以旧换新补贴

国誉高管做客京东3C数码采销直播间国誉塔卡沙联名文具礼盒仅需79元

政企联动，武汉家墩街道与天秤平台共商智慧社区建设新方案

化繁为简使命必达三星Galaxy S25系列让工作更轻松

纤薄轻盈匠心独运揭秘三星Galaxy S25 Edge的创新设计

Computex 2025: 宏碁展示完整AIPC生态体系和最新创新科技成果

冠一通飞新获一项国家发明专利科技创新再结硕果

当AI与艺术碰撞,三星艺术电视开启破次元的沉浸视听美学盛宴

叠纸游戏 X GGAC 首届创作大赛启动，共设角色、场景、动画、IP设计四大单元

易车研究院发布小城车市洞察报告(2025版)：资本下沉与人口回流正提振小城车市

从中美关税调整看中国制造韧性：晶惠迪二十余年专注单色COG液晶屏

5月22日买Apple就来京东全线产品低至6折下单还返20元大额外卖券

柔性传感技术革新医疗护理：墨现科技如何用“电子皮肤”守护生命健康

首批适配Android 16操作系统，vivo引领新一轮系统革新

热点图片

要闻

像素芝士作为官方唯一指定AI照片直播平台，亮相CHINA PE展
5月16日-19日，第 26 届中国国际摄影器材与影像技术展览会（简称PE展）在北京圆满落
COMPUTEX 2025丨天马携多项显示技术亮相，解锁AI时代“好屏”密码
2025年5月20日，全球瞩目的科技盛会COMPUTEX 2025台北国际电脑展盛大开幕。本届展会
三星显示器618全矩阵出击，以创新技术重构多场景视觉生态
随着消费者对高品质显示装备的需求持续升温，作为全球显示技术领导者，三星显示器携旗
国内首个！文心X1 Turbo获信通院“4+级”最高评级
5月20日，百度AI Day活动在北京举办，百度集团副总裁吴甜、中国信息通信研究院人工智
从米家智能净烟机套装霸榜，看厨电技术创新与消费趋势的共振突围
2025 年第一季度，中国厨电行业在 "国补" 政策扩容及消费升级的双重推动下，呈现显
618大促来临，闪迪提供全面礼遇，丰富存储方案助你高效生活
无论你是专注捕捉灵感的创意工作者，还是渴望制霸虚拟战场的电竞发烧友，都值得拥有更
从制冷到制氧，海信 X3Pro 挂机如何成为睡眠客厅空调健康标杆？
最近朋友圈里掀起一股"海信X3Pro热"，这款新风空调挂机俨然成为品质生活的标配。抱着
听智慧科技助力AI内容生成相关标准制定
近日，深圳市市场监督管理局正式发布《关于下达 2025 年深圳市地方标准计划项目任务
从传统到智能：解锁坐席管理新维度，AI+KVM坐席协作管理方案
在当今数字化与智能化技术日新月异的时代背景下，各行业对高效、智能的坐席管理需求呈
用上钉钉AI，这家头部物业公司人效提升整整五倍，每年省下300万
3个人，就能管理全国1000多个物业项目，听上去是不是很不可思议？一个原本不可能实现

拓元智慧联合发布分层推理具身基础模型RoBridge，破解机器人“知行合一”难题

相关阅读

猜你喜欢

热点图片

要闻