在4月11日举行的第八届HAOMOAIDAY上,毫末智行对外发布业内首个自动驾驶生成式大模型DriveGPT,中文名“雪湖·海若”,期望重塑汽车智能化技术路线。
毫末智行CEO顾维灏透露,DriveGPT雪湖·海若通过引入驾驶数据建立RLHF(人类反馈强化学习)技术,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到DriveGPT。终极目标是实现端到端自动驾驶。
目前,毫末DriveGPT雪湖·海若实现了模型架构与参数规模的升级,参数规模达到1200亿,预训练阶段引入4000万公里量产车驾驶数据,RLHF阶段引入 5万段人工精选的困难场景接管Clips。
DriveGPT雪湖·海若的底层模型采用GPT(Generative Pre-trained Transformer)生成式预训练大模型,与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。
DriveGPT雪湖·海若的实现过程是,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。同时,DriveGPT雪湖·海若还会根据输入端的提示语以及毫末CSS自动驾驶场景库的决策样本去训练模型,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程,完成可理解、可解释的推理逻辑链生成。
现场,毫末宣布DriveGPT雪湖·海若首发车型是新摩卡DHT-PHEV,即将量产上市。顾维灏提到,DriveGPT雪湖·海若可以逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。有了DriveGPT雪湖·海若的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。对于普通用户来说,车辆越来越像老司机,用户对智能产品的信任感会更强,理解到车辆的行为都是可预期、可理解的。
目前,毫末DriveGPT雪湖·海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。
毫末DriveGPT雪湖·海若将携手生态伙伴率先探索四大应用能力,包括智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困。当前,毫末在使用数据过程中,逐步建立起一套基于4D Clips驾驶场景识别方案,具备极高性价比。在行业上,给出正确的标注结果,一张图片需要约5元;如果使用DriveGPT雪湖·海若的场景识别服务,一张图片的价格将下降到0.5元。单帧图片整体标注成本仅相当于行业的1/10。接下来,毫末会将图像帧及4D Clips场景识别服务逐步向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量,从而加速自动驾驶技术的快速发展。
(DriveGPT雪湖·海若的场景识别能力对外开放)
顾维灏介绍,毫末在2023年1月发布的中国自动驾驶行业最大的智算中心MANA OASIS(雪湖· 绿洲)此次从算力优化等层面升级了三大能力,进一步支持DriveGPT雪湖·海若的算力。
此外,在本届HAOMOAIDAY上,毫末还宣布中国首款可大规模量产落地、重感知城市NOH,将首批落地北京、保定、上海等城市,并开启泛化测试,到2024年有序落地100城。
生态层面,毫末乘用车6P开放合作取得重大突破,已与3家主机厂签署定点合同,相关项目正在交付中。这是毫末商业化的重要一跃,全面保障了毫末高速发展态势。