浪潮信息AI团队获ICCV 2025 自动驾驶竞赛“端到端自动驾驶”赛道冠军

2025-10-28 17:21:33     来源:

近日,在ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge 2025)中,浪潮信息AI团队凭借其提出的创新框架“SimpleVSF”,以53.06的EPDMS综合得分,在端到端自动驾驶赛道中夺得冠军。该项目创新构建以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案,发挥大模型泛化能力,突破现有端到端自动驾驶模型在复杂交通场景“难以自主判断”的局限,实现性能领先,为高动态、高交互交通环境下的智能决策提供了全新思路。

浪潮信息AI团队斩获端到端自动驾驶赛道第一名

ICCV2025自动驾驶挑战赛是自动驾驶与具身智能领域极具影响力的国际赛事。本届比赛共设三大赛道,此次浪潮信息AI团队所登顶的端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)是ICCV2025最受关注的赛道之一。比赛以NAVSIM v2数据驱动仿真框架作为评估平台,主要考验纯视觉环视相机输入的轨迹预测与行为规划能力,要求在保证行车安全性的前提下,优化车辆的前进效率、避障能力、可行驶区域、驾驶舒适度等九项关键指标,避免模型只在某一单项上表现突出的缺陷。该赛道吸引了来自中国、韩国、瑞典的多家头部智驾企业及知名高校与研究机构。

端到端自动驾驶:挑战基于语义理解的类人决策

当前,端到端自动驾驶(End-to-End Autonomous Driving)通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向。然而,端到端自动驾驶系统在复杂现实路况中的决策能力仍不理想,主要问题在于:现有方法虽能准确识别车辆、车道等实体元素,却难以理解如礼让行人、拥堵跟车等高层次语义与场景常识。因此,在复杂长尾场景下,系统往往仅能依据数据关联做出反应,而无法真正解读交通参与者意图或交互逻辑,从而出现次优决策,限制了其在真实开放道路中的可靠性与泛化能力。

在此基础上,如何将深层语义认知能力融入轨迹规划流程,成为了更深层次的技术挑战。首先,将视觉语言模型输出的抽象认知指令,转化为驱动控制系统所需的具象数值化特征,本身就是一个复杂的表示学习问题。其次,在轨迹选择阶段,如何平衡数据驱动的量化评分与知识驱动的语义判断,确保所选轨迹不仅在数学上最优,也在语义和场景常识上合理安全,成为感知与决策间的关键障碍。

本届赛题旨在提升端到端自动驾驶模型在复杂动态环境中高效可靠决策的能力。竞赛分为两阶段:第一阶段采用真实场景数据,第二阶段则基于真实场景通过Gaussian Splatting技术生成合成场景,以测试模型对“非真实但物理合理”场景的泛化能力;同时引入“反应式背景交通参与者”,即周围车辆和行人不再是预先设定、机械运动的,而是会根据自车的实时行为做出动态、仿真的反应,这要求模型具备更深层次的交互式预测与意图理解能力,而非简单的轨迹外推。

NAVSIM v2端到端自动驾驶赛题任务概览

EPDMS 53.06分,SimpleVSF框架让自动驾驶模型“懂场景、会思考”

在端到端自动驾驶赛道中,浪潮信息AI团队所提出的SimpleVSF(Simple VLM-Scoring Fusion)框架,有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从“纯几何式”向“认知式”转变。该框架通过引入VLM(Vision-Language Model)与双重融合决策机制,赋予系统深层的场景理解与推理能力,从根本上解决了现有方案在复杂交通语义认知上的不足,成为应对NAVSIM v2等高难度挑战、实现高鲁棒性驾驶的关键。其主要技术创新包括:

VLM增强打分机制,决策质量与场景适应性显著提升

通过将前视图像与车辆状态输入VLM模型,生成“加速、右转”等认知指令,再经编码器转换为数值特征,与感知特征融合后输入评分网络。该机制使轨迹评估不再局限于几何信息,更融入了对交通意图与场景语义的理解,从而显著提升了系统在复杂与长尾场景下的决策质量与鲁棒性。实验表明,此VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6%。

SimpleVSF算法架构图

双重融合决策机制,量化权衡与语义裁决能力双重突破

权重融合器作为定量聚合的核心,采用固定权重与动态权重相结合的策略,对多个评分器给出的分数进行精准的加权融合,确保最终轨迹在各项量化指标上达到最优。

基于VLM的选择融合器则将各评分器选出的最优轨迹进行视觉渲染,并交由VLM进行最终评判,利用其高层次语义理解能力,选择出最符合上下文场景、最安全合理的轨迹路径。

融合机制的引入使决策效果显著提升,融合后的结果相比单一模型性能提升达10%。

基于VLM的轨迹选择方法

更坚实的基础模型协同,系统性能与鲁棒性全面提升

该框架采用扩散模型生成高质量的多样化候选轨迹,奠定规划基础;运用ViT-L等先进视觉骨干网络进行高效、鲁棒的环境特征提取,为下游任务提供可靠表征;并引入Qwen2.5VL系列视觉语言模型,利用其在场景理解与指令生成方面的语义优势,确保系统整体性能基础的坚实与领先。

基于VLM自动驾驶决策系统的算法创新,“SimpleVSF”算法框架成功登顶端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)榜单,以53.06的EPDMS综合得分创造了本赛道的最高成绩,为探索更高级别的端到端自动驾驶技术提供了有力的支撑与经验。

浪潮信息AI团队此次夺冠,是继22、23年登顶nuScenes 3D目标检测纯视觉及多模态榜单,24年在CVPR自动驾驶国际挑战赛“Occupancy & Flow”赛道夺冠后的又一重要成果。未来,浪潮信息AI团队将践行多角度切入,发挥算法、算力融合的AI全栈优化能力,推动自动驾驶领域的技术创新发展。

* 备注:文内所涉术语解释如下

扩展预测性驾驶模型评分(The Extended Predictive Driver Model Score,EPDMS):该指标综合考量轨迹预测与真实轨迹的贴合度、碰撞风险、可行驶区域规范性、车道居中性、通行效率及舒适性等多个维度,全面反映自动驾驶系统的综合表现;

高斯泼溅(Gaussian Splatting):一种新兴的三维场景表示与渲染技术;

鸟瞰视图(Bird’s Eye View,BEV):是指将特征信息转化至鸟瞰视角;

自车(ego-car):在自动驾驶领域指代当前车辆自身,通常作为运动主体参与轨迹规划、环境感知等任务;

鲁棒(Robust):是指系统在一定的参数摄动下,维持其它某些性能的特性。

 

标签:

猜你喜欢

从保鲜到烹饪 三星AI神 冰箱9系带来全方位智慧厨居新体验
穿越周期价值增长,TCL电子(01070)前三季度全球电视出货量额齐升
以AI为刃,飞书解码首个被AI变革的电商行业
开放互联迈入新阶段,行业首个开源鸿蒙认证冰箱问世
无线颈挂式耳机存在的意义在哪?体验斌雀/湶Quan蓝牙耳机有感!
打造AI创新生态,麒麟信安人工智能孵化器正式揭牌!
合作落地!广和通将与XREAL联合打造AR+AI眼镜随身智能助手新形态
推进医疗国产化,中兴新支点操作系统发布医共体平台方案
紫光国微三季报:营收净利双增,特种集成电路业务市场回暖
破局全球服务壁垒:企业管理运营专家方书礼斩获国际创新大奖
聚焦“三个深化” 培养机械类创新型人才
电力物联操作系统支撑电网灵活智控,润和软件助力湖南电网攻关
一场科技与人文的深度对话,如何重塑中国品牌的国际竞争力
比利信息用AI重构文旅增长逻辑,首个AI智能体落地西湖
H2C四季度揭晓,多项突破给足了玩家期待
范棣/独立经济学者、北京蠡商智能体科技创始人 互联网电商正转型为“智能体电商”——又一波看得见的财富浪潮
安博前瞻:神眸12问,安防新突围
双十一「星」选好物 这几款三星Galaxy产品值得推荐
施耐德电气有源类电能质量产品焕新升级,以创新科技智控电力“心跳”
鸿蒙课程首次走进中国香港顶尖学府,华为携手香港科技大学共育科创英才
施耐德电气亮相2025亚洲国际物流技术与运输系统展览会,数智创新赋能物流行业跑出“加速度”
科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书
宏碁再度荣登福布斯「全球最佳雇主」及「全球女性友好公司」榜单
悦灵犀AI全新版本是一次革命性的底层技术架构全栈进化
从保鲜到烹饪 三星AI神 冰箱9系带来全方位智慧厨居新体验
11.11消费报告:3D打印机、AI眼镜、机器人等备受关注 京东相关产品迎来显著增长
《土木工程科学(英文)》创刊仪式及编委会议成功举办
青藤之恋:沉淀安全治理经验,为婚恋服务安全信任基石添砖加瓦
英特尔助力阿里云推出多款云实例与存储方案,共筑AI时代云端算力基石
中昊芯英创始人杨龚轶凡作为中国AI芯片企业代表受邀出席迪拜AIM SUMMIT