毫末出席2023北京智源大会顾维灏：自动驾驶大模型DriveGPT将重塑汽车智能化技术路线

6月9日-10日，被誉为“AI春晚”的2023北京智源大会举行。在为期两天的AI技术盛宴上，“大模型”毫无疑问成为了最火的那个概念。

作为已经举办了四届的人工智能学术盛会，今年第五届的智源大会可以用盛况空前来形容。不仅有Hinton、LeCun等四位图灵奖得主同台，还有OpenAI创始人Sam Altman、PaLM-E和RoBERTa等大模型重要工作参与者，以及张钹、张宏江等国内外AI最前沿领军人物齐聚一堂，围绕大模型发展现状与趋势，以及针对AI安全问题和风险防范进行数场激烈讨论。

随着ChatGPT为代表的大模型应用的火爆，这一次面向AI行业的技术大会更是破圈，进入大众视野。AI大模型与各行各业以及人们的日常生活正在发生千丝万缕的联系。对于同样是人工智能前沿探索领域的自动驾驶，也在本届智源大会上设置了专门的分论坛。AI大模型与自动驾驶能够产生怎样的“化学反应”成为与会嘉宾高频讨论的问题。

（顾维灏演讲现场图）

其中，作为国内自动驾驶AI技术公司的领先代表，毫末智行受邀出席了本届智源大会，毫末CEO顾维灏在现场分享了题为《DriveGPT雪湖·海若驱动自动驾驶3.0时代加速到来》的主题演讲，详细阐释了基于AI大模型所实现的端到端自动驾驶方案的最新成果。

演讲之前，主持人特意提到，实现端到端自动驾驶正在成为国内外自动驾驶AI公司探索的最前沿课题，而毫末正是国内做自动驾驶的代表。顾维灏指出，过自动驾驶在过去二十年的时间没有完全达成目标，除了传感器硬件、算力等原因跟不上，还有一个原因可能是方法跟不上。而最可能的实现方法就是以数据驱动，进行AI大模型训练和部署的方式来实现真正的自动驾驶。顾维灏表示，世界正在朝着大模型的方向发展，自动驾驶大模型是必然趋势。

顾维灏认为，ChatGPT的成功，带给自动驾驶技术很大的启发。大模型的本质就是将知识压缩到模型当中，然后再去延伸出来去解决很多问题。GPT（生成式预训练大模型）作为AI大模型的很重要的方法，可以引入到自动驾驶领域。基于这些思考，毫末率先在行业推出了自动驾驶的生成式大模型DriveGPT雪湖·海若。

在演讲开始，顾维灏首先分享了毫末对于当前自动驾驶发展趋势的判断：2023年智能驾驶产品进入了一个全线增长的爆发期，正出现三个趋势，即城市导航辅助驾驶产品将围绕量产交付发力、行泊一体将成为自动驾驶公司深耕的重点以及低速无人车市场走向商业化落地，末端配送在商超、快递等场景迎来全面爆发。以上趋势的背后是AI技术生态、AI数据生态、AI算力生态的加速升级，推动自动驾驶技术与商业发展走向成熟。

顾维灏认为，经过近二十年的发展，自动驾驶技术先后经历了以硬件驱动为主的1.0时代、以软件驱动为主的2.0时代，目前正在进入由数据驱动的自动驾驶3.0时代。进入自动驾驶3.0时代，至少需要一亿公里以上的数据规模，感知模型进入到多模态传感器联合输出的模式，认知模式也从人工规则方式发展到可解释、场景化，具有驾驶常识的模型中。因此自动驾驶3.0的模式一定是大数据、大算力、大模型的。而毫末正在以数据驱动的方式，实现从自动驾驶2.0向3.0时代的加速冲刺。

顾维灏表示，毫末智行从2019年底创立之初，就定下以数据驱动自动驾驶技术升级的公司技术战略，提出了“自动驾驶发展三定律”，并确立了以“数据智能”为核心，以乘用车辅助驾驶、末端物流自动配送车、智能硬件三大业务作为叶片的风车战略，形成产品、数据、技术闭环的良性循环。

毫末以领先的AI技术和量产智能驾驶作为核心优势，在2021年底，率先发布国内首个全栈自研的自动驾驶数据智能体系MANA（雪湖），开始建立数据驱动的闭环体系。截止目前为止，毫末辅助驾驶的用户行使里程超过5000万公里，MANA学习时长达到67万小时。在2022年底，毫末又建成国内自动驾驶行业最大的智算中心MANA OASIS（雪湖·绿洲），每秒浮点运算达到67亿亿次，为AI大模型训练建立起算力基础设施。

基于数据智能体系和智算基础设施，以及早在2021年就对Transformer大模型前沿探索的基础上，毫末在2023年1月，在行业率先推出了视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾无监督认知大模型等五大大模型，也成为行业首个将GPT大模型技术引用到自动驾驶认知决策当中的自动驾驶公司。

2023年4月的第八届HAOMO AI DAY上，基于GPT大模型所具有的生成式预训练、人类反馈强化学习（RLHF）等技术优势，毫末发布了行业首个自动驾驶生成式大模型DriveGPT雪湖·海若。

顾维灏认为，AI大模型成为这场自动驾驶技术升级背后的关键因素。随着ChatGPT火爆全球，使得AI大模型技术价值被全行业看到。ChatGPT作为生成式语言大模型的代表，带给AI科技行业很大启示，就是通过对海量多模态数据的大规模自监督学习，借助“预训练+微调”的方式，就可以完成各种复杂自然语言任务。现在大模型正在从文本、语音、视觉等单一模态智能向跨场景、多任务的多模态方向演进，AI大模型在跨领域内容学习和能力获取方面实现了质的飞跃。

顾维灏指出，以传统深度学习的小模型以及人工规则的方式难以突破完全自动驾驶所要求的能力瓶颈，而基于大模型的方式对自动驾驶感知、认知算法进行训练和部署，将使得端到端自动驾驶成为实现，并且会逐步达到超过人类老司机水平的驾驶能力，最终成为自动驾驶机器人，实现无处不在的机器智能移动。

据顾维灏介绍，DriveGPT的底层模型与ChatGPT一样，都采用了生成式预训练模型架构，使用了大规模无监督的数据进行初始模型的生成，也都采用了Prompt微调方式和RLHF方式进行模型效果的优化；二者的不同之处在于，ChatGPT输入输出的自然语言的文本，而DriveGPT输入输出分别是融合感知场景序列和生成的预测的场景序列，双方应用的场景不同，ChatGPT主要用于自然语言处理领域，而DriveGPT主要用于自动驾驶领域。

具体来讲， GPT的本质是不断求解下一个词（Token）出现的概率，DriveGPT就是求解驾驶场景Token出现的概率，不断循环来生成自动驾驶场景未来Token序列。DriveGPT的输入是感知融合后的Token序列，输出是自动驾驶场景Token序列，即将自动驾驶场景Token化，形成“Drive Language”，用于描述包括障碍物的状态、自车状态、车道线情况等某时刻的场景状态，最终完成自车的障碍物预测、决策规控以及决策逻辑链的输出等任务。

毫末DriveGPT底层模型同样是采用GPT这种生成式预训练大模型技术，首先会通过引入大规模驾驶数据进行预训练，在通过使用奖励模型（Reward Model），与RLHF（人类反馈强化学习）技术对人驾数据进行强化学习，对自动驾驶认知决策模型进行持续优化。

其中，顾维灏对于大模型的可解释性难题做了专门解释，DriveGPT在接受人类反馈的强化学习之后，还可以输出决策逻辑链(Chain of Thought，简称CoT)，即在输入端提供提示语（Prompt），根据提示输出含有决策逻辑链的未来序列。毫末CSS自动驾驶场景库拥有超过几十万个细颗粒度场景，可以作为CoT的重要输入，将Prompt和完整决策过程的样本交给模型去学习，学到推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

目前，毫末DriveGPT采用了Decoder-only模型架构，参数规模达到1200亿，预训练阶段引入4700多万公里量产车驾驶数据，RLHF阶段引入5万段人工精选的困难场景接管 Clips。同时，毫末正在将感知能力融入到DriveGPT大模型训练当中，形成一整套的端到端的自动驾驶能力模型。DriveGPT也将具备道路驾驶场景的理解和识别、道路驾驶场景的重建与生成，以及智能驾驶辅助、驾驶能力测评等能力。

在场景理解能力上， DriveGPT可基于多模态理解能力，具备对话式文搜图能力。在场景识别能力上，可实现对单帧图片、环视Bundle、4D Clips自动化标注。基于毫末DriveGPT所建立的4D Clips驾驶场景识别方案，可以使得单张图片的标注成本降到0.5元，相较目前行业平均成本的1/10。在场景重建能力上，可实现对单趟或多趟视频的纯视觉NeRF三维重建。DriveGPT在感知数据生成方面，实现不同场景的感知数据生成和障碍物、交通元素编辑，同时在认知数据生成上，可以生成各类接管场景的驾驶决策真值。

基于DriveGPT实现的驾驶辅助能力，可包含通用感知能力和驾驶决策能力，提升驾驶效果。DriveGPT颠覆传统的感知逻辑，通过构建统一的空间计算Backbone实现通用视觉感知能力，在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习，试图与人脑对物理世界的感知一样实现通用的视觉感知能力。在认知阶段，将空间计算Backbone对接驾驶决策，采用更丰富、更全面的感知信息来训练驾驶决策模型，结合海量的真实驾驶数据训练，最终实现端到端自动驾驶甚至达到无人驾驶。

在云端驾驶决策测评上，DriveGPT本身的驾驶水平非常高，可以在云端通过大模型输出驾驶决策真值，来对比车端小模型的驾驶效果，实现大规模云端自动化测评，形成一种“Teacher-Student”模式。在多智能体仿真能力上，由于DriveGPT具备很强的自主化能力，相当于一个独立智能体，通过在驾驶仿真场景中布置多个智能体，就可以模拟非常复杂的真实交通场景，尤其是复杂场景的多车交互与博弈场景，能给出更真实、有效的测评结论。

在毫末看来，毫末DriveGPT大模型技术将使得自动驾驶技术产生质的飞跃，成为实现真正无人驾驶的全新技术路线。顾维灏表示，DriveGPT的训练成果距离最终的产品体验还有差距，但是进步飞快，自动驾驶大模型最终在终端的落地也会加速到来。

据介绍，毫末DriveGPT雪湖·海若大模型的相关技术成果将逐步落地在搭载毫末HPilot3.0的新摩卡DHT-PHEV、魏牌蓝山DHT-PHEV以及末端物流自动配送车小魔驼3.0上。同时，毫末也正在与多个行业生态伙伴共同探索DriveGPT的四大应用能力，包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。DriveGPT大模型也正在将云端的能力对外开放，包括大规模数据的自动化标注，自动驾驶场景仿真测试等能力。