拓元智慧联合发布分层推理具身基础模型RoBridge,破解机器人“知行合一”难题

2025-05-22 11:34:44     来源:

近日,全球物理空间智能AI应用领航者拓元智慧(X-Era AI)联合中山大学、鹏城实验室等顶尖科研机构重磅发布分层推理具身基础模型RoBridge。该模型在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度。

在开放式场景的机器人操作研究中,传统端到端视觉语言动作(VLA)模型虽能实现指令理解与动作输出的直接映射,却面临训练成本高昂(通常需要数十张GPU数周训练)、认知与执行割裂等根本性缺陷。针对这一核心问题,由梁小丹、林倞等知名学者提出的分层推理的具身基础模型RoBridge,仅需单张A100训练一天即可突破两大技术瓶颈:其创新设计的分层结构通过认知规划与物理执行的解耦,在保持VLM语义理解优势的同时,成功将强化学习的过程技能成功率提升至新高度。该架构由三级模块构成——基于视觉语言模型(VLM)的高级认知规划器(HCP)实现任务语义解析,不变可操作表示(IOR)构建符号化中间层,通用具身代理(GEA)负责物理执行。实验表明,RoBridge零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实(Sim2Real)的泛化成功率(83%),相较RDT、π0等基线模型提升超40%,为破解机器人"知行合一"难题提供了更高效可靠的解决方案。

论文:RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

项目地址:https://abliao.github.io/RoBridge

1.背景:机器人操作技术的双重困境

机器人操作技术长期受限于两大瓶颈:

1. 1程序性技能困境。

为了获得根据指令操纵对象的能力,RDT和π0等VLA模型通常采用数据驱动的轨迹拟合方法。然而,当面对环境变化时,包括波动的照明条件、相机姿态偏差和环境变化,这些方法经常遭受灾难性的性能下降。强化学习虽然稳健,但具有试错性和低学习效率的特点,使其在实际环境中的适用性较低。

图1. 程序性技能方法、陈述性技能方法和RoBridge方法比较。

1.2 陈述性技能困境。

最近的工作将视觉语言模型 (VLM) 集成到机器人系统,如 ReKep和 OmniManip,它们使用多模态大模型来生成开放域任务的操作指令。虽然这些模型在理解方面表现出色,但它们缺乏具体经验,并且需要将输出限制为可执行动作。这种方法迫使语言模型在没有物理直觉的情况下处理时空推理,这通常会导致难以置信的任务规划。例如,在任务 “将块 A 放在块 B 上” 中,对空间的理解不足往往会导致这种方法产生致命缺陷的动作序列。

2. RoBridge框架

本文提出的RoBridge框架如图所示,主要包括三个核心组件:高层认知规划器(High-level Cognitive Planner, HCP)、不变可操作表示(Invariant Operable Representation, IOR)和通用具身智能体(Generalist Embodied Agent, GEA)。整体流程如下:首先,HCP根据观察信息和任务指令将复杂任务分解为多个原子动作;其次,针对每个原子动作,HPC结合基础模型生成IOR表示;最后,GEA基于该表示执行具体操作,整个过程通过闭环控制进行调节。各部分说明如下:

图2. RoBridge框架

(1)高层认知规划器(HCP)

HCP由视觉语言模型(如GPT-4o)和基础模型API(如GroundingDINO、SAM和Track-Anything)构成。给定当前RGB图像 和指令 ,通过VLM将任务分解为若干原子动作 ,其中表示动作类型为操作对象,为目标位置(可选)。如图示例中,任务被分解为抓取黄色圆柱体、移动至圆形插槽等四个原子动作。HCP通过基础模型API进行对象分割,并结合传感器数据生成IOR表示。

(2)不变可操作表示(IOR)

每个原子动作对应的IOR表示由四元组构成:

其中:Mi 包含夹爪、操作对象和目标的三视角掩膜 。Di 包含对应的一视角掩膜深度信息 。Ci 包含末端执行器位姿和运动方向约束

通过GroundingDINO和SAM实现对象分割,结合VLM进行对象选择。对于存在方向约束的任务(如打开抽屉),HCP提供归一化方向向量 。IOR表示具有领域不变性,可有效降低环境变化对模型的影响。

(3)通用具身智能体(GEA)

在每个时间步t生成更新后的,通过策略函数映射为机械臂动作。针对“reach”类动作采用运动规划,其他复杂动作结合强化学习与模仿学习进行训练。

(4)闭环控制 采用双频更新机制:

- 高频控制:通过Track-Anything实时更新掩膜和深度

- 低频控制:结合GPT-4o和夹爪状态判断任务状态(成功/失败/正常),失败时重新生成

3. 通用具身智能体训练

如图所示,训练过程分为三个阶段:

图3. 通用具身智能体训练示意图。

(1)强化学习阶段

为每个任务训练专家策略,引入机械臂位姿、物体形状和相机偏移等领域的随机化以提升鲁棒性。

(2)模仿学习阶段

基于专家数据训练通用策略,输入为广义交互表示。新增以下领域随机化:

1. 深度图增强:高斯偏移、模糊、随机掩膜

2. 掩膜增强:随机偏移、噪声注入

(3)持续技能聚合

采用改进的DAgger算法解决模仿学习的误差累积问题(算法1):

1. 初始化各任务权重为均等值

2. 定义分段函数将奖励映射为权重调整值

3. 迭代过程中动态调整任务采样频率,优先采集困难任务

4. 记录失败轨迹并由专家生成修正数据

4. 实验

4.1 架构与训练

我们为每个任务单独训练强化学习专家策略,采用DRQ-v2算法进行训练。输入包含RGB图像、机器人本体感知和任务独热编码,输出低层级动作。通用智能体采用与DRQ-v2相同的网络架构,输入为不变可操作表示(IOR),其中原子动作采用独热编码表示。

4.2 硬件配置

真实实验采用Kinova Gen3机械臂,配置两个Realsense D435i相机:腕部相机提供第一视角,固定相机提供第三视角。 设计四类任务:(1)物体抓取, (2)平面清扫 ,(3)按钮按压, (4)抽屉开启。前两类测试未见物体,评估泛化能力。另设计多阶段积木插槽任务,评估长时程任务处理能力。

图4. RoBridge 在真实任务中表现卓越,适应真实复杂环境,展现良好泛化能力。

4.3 仿真基准

在Metaworld和Robosuite仿真环境中进行测试。Metaworld选取50个任务,在零样本泛化测试中35个用于训练,5个用于零样本测试任务。

4.4 基线方法

DRQ-v2:多任务强化学习基准

SayCan:基于LLM的技能规划

PSL/ManipGen:动作级技能库扩展方法

ReKep:关键点推理方法

RDT/π0系列:端到端扩散模型方法

4.5 仿真结果

下表显示在Metaworld基准测试中,RoBridge平均成功率82.12%,较最优基线提升11.28%。在背景/光照/色彩/视角变化下均表现最佳鲁棒性。

4.6真实场景结果

下表显示在真实任务中,RoBridge平均成功率83.3%,长时程任务平均完成阶段数3.0(表3)。可视化结果显示相比π0和ReKep,本方法能稳定处理复杂物理交互。

图5. 真实机器人实验。

4.7 零样本任务泛化

下表显示在5个全新任务(物料分拣/物体取出/手柄按压/托盘滑动/清扫入库)中,RoBridge平均成功率75%,展现优异的零样本迁移能力。

5. 总结

本文提出了RoBridge,一种基于分层认知架构的机器人操作基础模型,通过突破端到端VLA模型的瓶颈,以单张A100仅需1天训练的高效范式实现三大突破:其一,通过分离高层语义理解与底层物理控制,将VLM的开放场景认知优势与强化学习的精确操作能力深度融合;其二,创新引入不变可操作表示(IOR)作为符号化中间层,有效解决传统模型因跨模态特征错位导致的"脑手不一"问题;其三,零样本泛化即可达成75%的新任务成功率,仅需5个真实样本即可实现模拟到现实的泛化成功率(83%),相比RDT、π0等基线模型提升超40%。该架构通过高级认知规划器(HCP)、IOR符号桥梁和通用具身代理(GEA)的三级协同,在显著降低训练成本的同时,显著提升开放式任务的操作鲁棒性,为破解机器人"知行合一"难题提供了可扩展的技术路径。

作为全球领先的物理空间智能AI应用服务商,拓元智慧持续攻关具身智能核心技术,逐步构建具身智能通用能力。此次分层推理具身基础模型RoBridge的发布,标志着拓元智慧在具身智能通用能力建设上的又一里程碑。

未来,拓元智慧将继续深化与学术界、产业界的协同创新,以“物理空间智能引擎”为核心,推动具身智能技术在实体经济的规模化落地。

关于拓元智慧

拓元智慧(X-Era AI)由AI技术领域国际知名专家团队创立于2022年。公司聚焦于研发新一代物理空间智能引擎,打造线下零售、空间设计、工业制造领域的AI应用与新生态,构建具身智能通用能力。公司秉持技术与业务闭环的双轮驱动,以“端云协同”的服务框架,推动AI模型从数字空间迈进物理世界,拓展人机共荣的新纪元。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

销量销额10倍增长!MOVA业绩猛增创红利
宝尊全渠道战略持续深化,店铺运营多渠道客户占比同比提升
14英寸高性能轻薄本标杆之作 华硕天选Air 2025首发预约
从独行者到播种者——光启技术董事长刘若鹏的22年“超材料”产业化之路
华为兆瓦超充,纯电重卡的充电焦虑终结者
从无感支付到营养大数据,海亮科服的科技守“胃”战
只需提问即可生成周报、总结 飞书发布AI新功能知识问答
有电储能:实力为基,科技为本,打造最值得信赖的便携储能品牌
2025 XCOPS智能运维管理人年会在广州圆满落幕
国际顶会ACL录用九章云极DataCanvas科研论文 破解语言模型类比推理难题
“技术共生”成趋势,中企成欧洲车企智能化升级的重要推动力
纵行科技携全链路国产化技术亮相“2025天开论坛”
太空上新携手护舒宝 手写祝福上火箭 致敬航天她力量
龙环汇丰总裁索永鑫参加第六届“数智银行家”培养计划,探索金融数字化转型新路径
施耐德电气出席2025能源电力转型国际论坛,以科技创新助力新型电力系统建设
2024游戏安全白皮书:对抗激烈!PC游戏外挂功能数增长超149%,超85%移动外挂为定制挂
2379元起!来京东购iQOO Neo10 Pro+可享国补叠加以旧换新补贴
国誉高管做客京东3C数码采销直播间 国誉塔卡沙联名文具礼盒仅需79元
政企联动,武汉家墩街道与天秤平台共商智慧社区建设新方案
化繁为简 使命必达 三星Galaxy S25系列让工作更轻松
纤薄轻盈 匠心独运 揭秘三星Galaxy S25 Edge的创新设计
Computex 2025: 宏碁展示完整AIPC生态体系和最新创新科技成果
冠一通飞新获一项国家发明专利 科技创新再结硕果
当AI与艺术碰撞,三星艺术电视开启破次元的沉浸视听美学盛宴
叠纸游戏 X GGAC 首届创作大赛启动,共设角色、场景、动画、IP设计四大单元
易车研究院发布小城车市洞察报告(2025版):资本下沉与人口回流正提振小城车市
从中美关税调整看中国制造韧性:晶惠迪二十余年专注单色COG液晶屏
5月22日买Apple就来京东 全线产品低至6折下单还返20元大额外卖券
柔性传感技术革新医疗护理:墨现科技如何用“电子皮肤”守护生命健康
首批适配Android 16操作系统,vivo引领新一轮系统革新