“无人零售第一股”解禁首日暴跌,奈雪、商汤等基石投资者浮亏超一半
“无人零售第一股”解禁首日暴跌,奈雪、商汤等基石投资者浮亏超一半
癌症早筛赛道又一IPO,估值超6亿美元
癌症早筛赛道又一IPO,估值超6亿美元
加电的李斌,可能要海外“加油”了
加电的李斌,可能要海外“加油”了
特斯拉“牛仔项目”曝光:FSD专挑极限场景跑,玩的就是心跳
特斯拉“牛仔项目”曝光:FSD专挑极限场景跑,玩的就是心跳
立即打开APP
超电实验室
私信
0
来源:智己汽车

L3还没到,智己就能造L4的车了?

2024-10-29
超电实验室
智驾也要靠自觉。

文|王磊 刘雅杰

编辑|秦章勇


默不作声的智己,开始在智驾上憋大招。


50多页的PPT,42分钟的讲解,全是硬核的智驾技术干货,就为了展现出一个主题,智己汽车和Momenta联合打造的智驾大模型IM AD 3.0,已经进化到下一个阶段——拥有人的直觉。


“直觉”这个词,也是贯穿整场发布会。


关于端到端,每家企业的研发路线都不尽相同,解释的话术也有所区别,IM AD 3.0的优势,则是用直觉来形容,其背后靠的则是一段式端到端直觉式智驾大模型


这套大模型拥有类似人脑结构的思考方式,驾驶过程中会生成本能反应主导的直觉决策能力,也就是老司机的开车方式,所以智己毫不客气地表示自家智驾就是“十年老司机”。


除此之外,基于IM AD 3.0,智己还成为了国内首个,同时具备L2、L3、L4级智能驾驶量产能力的品牌。


 开车靠“直觉”


智己CEO刘涛也顺势公布了L2到L4的时间表:



L2+级高阶辅助驾驶,已于本月在全国范围内开通全系车型“无图城市NOA”,可以做到“全国都好开、全场景都敢开”。


智己还启动了欧洲市场的L2+道路测试,目的是为了打造一个“全球都能开”的无图NOA。


L3级自动驾驶已进入量产倒计时,今年6月,智己入选国家首批智能网联汽车L3级自动驾驶准入和上路通行试点名单,预计将于2026年正式具备L3级自动驾驶方案的量产条件。


同样位于智驾第一梯队的问界、小鹏暂不在该名单中。


另外,智己预计将在年内获得首批“L4级无驾驶人道路测试牌照”,智己无人驾驶车将很快实现上路。



和大部分车企不同,智己并没有采用当下主流的“感知+规划”的分模块智驾结构,而是和Momenta将其整合进一个大模型,云端算力为2.5EFLOPS。


这样的好处显而易见,除了减少手写规则,有利于实现全局流程最优,其训练的上限也较高。


智己敢宣称自家“一段式端到端智驾大模型”断代领先,背后还有一个重要原因就是这款大模型具备人工智能生成的“直觉能力”,即也可以理解为智驾从“像人”进化到了“成为人”


直觉是人类才有的特质,官方称IM AD3.0会以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力。


尤其是在前车突然刹停和人车混流的无保护左转场景的情况下,传统的智驾系统会像机器般执行原有指令“傻等”,但IM AD3.0会像老司机一样观察两侧路况,并伺机变道。


如果碰上车道有水坑的情况下,IM AD3.0也会做出绕行水坑,而不是继续执行车道保持,从水坑上驶过。


在训练这套智驾系统的过程中,智己还采用了“长短期记忆模式”架构。



简单来说,就是将智驾大模型的数据处理分为短期记忆和长期记忆两种模式。短期记忆可以实现以天为单位的迭代,快速验证优质数据;长期记忆则是周级迭代优质数据,对数据进行质量评估后,把优质数据输出,应用于端到端大模型。


“长短期记忆模式”其实就是在模仿人脑“直觉推理+逻辑分析”的问题处理方式,可以在模型训练成本节省10-100倍的同时,大幅提升迭代速度。


 都得需要安全机制兜底


其实从智驾领域普遍的方案来看,分段式端到端是目前行业的主流方案。


分段式的大模型,感知端用一个模型,控制决策规划用一个模型,用两个模型来代替One Model,也是目前主流的端到端路线,像小鹏的XNGP、华为ADS3.0都是分段式端到端的方案。


而所谓一段式端到端大模型,就是取消了分模块智驾结构,将感知与规划整合进一个大模型,一个完整的神经网络减少了中间结构化感知结果的传递,从原始数据输入到规划路径输出,实现了信息无损传递,像车辆的颜色、司机的性别、车辆的状态等,体验更类人,性能上限更高。



所以不难看出,在智驾追求上,One Model大模型要比分段式大模型要好的多,因为信息的无损传递,上限也变得极高。


当然,从两段式端到端、模块化端到端到单一神经网络模型的One Model端到端的进程中,越往后,难度也越大。这也是为什么目前行业选择的主流方案是分段式端到端的原因。


就像不久前,极越汽车在其智驾发布会上说的那样“One Model的一段式端到端,好像可以用数据来解决所有问题。那为什么还是选择两段式端到端?”


因为出于安全因素的考虑。


虽然“One Model”的一段式模型,上限极高,但下限同样也很低。要知道通过一套神经网络模型来进行驾驶行为决策,这过程就像“黑盒”一样,很难控制系统输出的内容。


而且它也缺乏透明度,工程师很难修复系统中存在的决策漏洞,并不能保证绝对的安全,也就说,一段式方案面临更难的长尾问题。


但这也并不意味着,目前一段式端到端的方案就无法落地。


尽管AI模型存在不可控性,可能会做出一些违背物理规律的结论推导。所以这个时候,就不能仅靠“直觉”了,它还需要加入“逻辑”加以纠正。在一段式的前提下,加入“安全逻辑网络”来兜底,保证直觉决策的安全性。


这也对应智己汽车的方案,“一段式端到端+安全逻辑网络”,通俗的来说就是人脑的直觉推理+逻辑分析两个部分,正好对应智己给出的“长短记忆”两个系统结合。



而且智己汽车也不是第一个这么干的,在此之前,最先在智驾领域应用这种方案的是理想,其搭载的E2E(端到端大模型)+VLM(视觉语言模型)分成系统一和系统二,组成了“快慢”系统,两个系统相互配合,构成了人类认知和理解世界、做出决策的基础。


不难看出,两家在理念上极为类似,不过,在技术框架上有所区别。


理想的系统一是E2E端到端;系统二是VLM视觉语言模型,VLM在一些复杂场景下,会对E2E进行指导,像是一位陪驾的老司机,因为是一套视觉语言模型,所以运作频率相较于E2E是一套慢系统。



理想E2E端到端是系统一,作为主决策者,VLM视觉语言模型,当作系统2,可以理解为系统1的“冗余”,VLM在一些复杂场景下,会对E2E进行指导,像是一位陪驾的老司机,因为是一套视觉语言模型,所以运作频率相较于E2E是一套慢系统。


VLM视觉语言模型具备一些逻辑思考的能力,会在一些复杂情况下验证“端到端”的决策,最终实现车辆的兜底或控制。


而智己对应的方案“长短记忆“模式,长期记忆是通过E2E来完成,作为主决策者。


而智己上安全逻辑网络,就不是视觉语言模型了,而是一套由规则构成的逻辑算法,这套系统使用串行处理方式,对数据进行验证,实现算法迭代。



可以理解为对某个场景,某个功能模型的小版本演化,可以达到快速迭代试错目的,然后经过验证过的好的算法和数据,会在一段时间的积累后应用在“长期记忆”,即最终的端到端大模型上。


不难看出,虽然两家采用了不同的技术框架,但在理念上是殊途同归,而且都需要一套安全网络进行兜底。


所以再性感的智驾技术方案,没有足够的安全都是空中楼阁,技术路线或许没有标准答案,不断解决掉长尾问题,才是智驾的最优解。

猎云网APP阅读全文

体验更加

猎云网

微信扫码关注猎云网

  1. 猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权;
  2. 转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接,如:转自猎云网(微信号: lieyunjingxuan )字样;
  3. 猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
  4. 联系猎云,请加微信号:jinjilei
猜你喜欢
长按图片可以分享给好友
×