50位员工，撑起一个AI智能体应用IPO

市值超300亿，高瓴投的产业级AI智能体IPO了

“败家”的福特：巨亏566亿后，却上调全员奖金30%

本田怎么了？利润暴跌60%，电动化开始急刹车

立即打开APP

来源：智己汽车

L3还没到，智己就能造L4的车了？

2024-10-29

超电实验室

智驾也要靠自觉。

文｜王磊刘雅杰

编辑｜秦章勇

默不作声的智己，开始在智驾上憋大招。

50多页的PPT，42分钟的讲解，全是硬核的智驾技术干货，就为了展现出一个主题，智己汽车和Momenta联合打造的智驾大模型IM AD 3.0，已经进化到下一个阶段——拥有人的直觉。

“直觉”这个词，也是贯穿整场发布会。

关于端到端，每家企业的研发路线都不尽相同，解释的话术也有所区别，IM AD 3.0的优势，则是用直觉来形容，其背后靠的则是一段式端到端直觉式智驾大模型。

这套大模型拥有类似人脑结构的思考方式，驾驶过程中会生成本能反应主导的直觉决策能力，也就是老司机的开车方式，所以智己毫不客气地表示自家智驾就是“十年老司机”。

除此之外，基于IM AD 3.0，智己还成为了国内首个，同时具备L2、L3、L4级智能驾驶量产能力的品牌。

开车靠“直觉”

智己CEO刘涛也顺势公布了L2到L4的时间表：

L2+级高阶辅助驾驶，已于本月在全国范围内开通全系车型“无图城市NOA”，可以做到“全国都好开、全场景都敢开”。

智己还启动了欧洲市场的L2+道路测试，目的是为了打造一个“全球都能开”的无图NOA。

L3级自动驾驶已进入量产倒计时，今年6月，智己入选国家首批智能网联汽车L3级自动驾驶准入和上路通行试点名单，预计将于2026年正式具备L3级自动驾驶方案的量产条件。

同样位于智驾第一梯队的问界、小鹏暂不在该名单中。

另外，智己预计将在年内获得首批“L4级无驾驶人道路测试牌照”，智己无人驾驶车将很快实现上路。

和大部分车企不同，智己并没有采用当下主流的“感知+规划”的分模块智驾结构，而是和Momenta将其整合进一个大模型，云端算力为2.5EFLOPS。

这样的好处显而易见，除了减少手写规则，有利于实现全局流程最优，其训练的上限也较高。

智己敢宣称自家“一段式端到端智驾大模型”断代领先，背后还有一个重要原因就是这款大模型具备人工智能生成的“直觉能力”，即也可以理解为智驾从“像人”进化到了“成为人”。

直觉是人类才有的特质，官方称IM AD3.0会以更接近人脑结构的思考方式，生成本能反应主导的直觉决策能力。

尤其是在前车突然刹停和人车混流的无保护左转场景的情况下，传统的智驾系统会像机器般执行原有指令“傻等”，但IM AD3.0会像老司机一样观察两侧路况，并伺机变道。

如果碰上车道有水坑的情况下，IM AD3.0也会做出绕行水坑，而不是继续执行车道保持，从水坑上驶过。

在训练这套智驾系统的过程中，智己还采用了“长短期记忆模式”架构。

简单来说，就是将智驾大模型的数据处理分为短期记忆和长期记忆两种模式。短期记忆可以实现以天为单位的迭代，快速验证优质数据；长期记忆则是周级迭代优质数据，对数据进行质量评估后，把优质数据输出，应用于端到端大模型。

“长短期记忆模式”其实就是在模仿人脑“直觉推理+逻辑分析”的问题处理方式，可以在模型训练成本节省10-100倍的同时，大幅提升迭代速度。

都得需要安全机制兜底

其实从智驾领域普遍的方案来看，分段式端到端是目前行业的主流方案。

分段式的大模型，感知端用一个模型，控制决策规划用一个模型，用两个模型来代替One Model，也是目前主流的端到端路线，像小鹏的XNGP、华为ADS3.0都是分段式端到端的方案。

而所谓一段式端到端大模型，就是取消了分模块智驾结构，将感知与规划整合进一个大模型，一个完整的神经网络减少了中间结构化感知结果的传递，从原始数据输入到规划路径输出，实现了信息无损传递，像车辆的颜色、司机的性别、车辆的状态等，体验更类人，性能上限更高。

所以不难看出，在智驾追求上，One Model大模型要比分段式大模型要好的多，因为信息的无损传递，上限也变得极高。

当然，从两段式端到端、模块化端到端到单一神经网络模型的One Model端到端的进程中，越往后，难度也越大。这也是为什么目前行业选择的主流方案是分段式端到端的原因。

就像不久前，极越汽车在其智驾发布会上说的那样“One Model的一段式端到端，好像可以用数据来解决所有问题。那为什么还是选择两段式端到端？”

因为出于安全因素的考虑。

虽然“One Model”的一段式模型，上限极高，但下限同样也很低。要知道通过一套神经网络模型来进行驾驶行为决策，这过程就像“黑盒”一样，很难控制系统输出的内容。

而且它也缺乏透明度，工程师很难修复系统中存在的决策漏洞，并不能保证绝对的安全，也就说，一段式方案面临更难的长尾问题。

但这也并不意味着，目前一段式端到端的方案就无法落地。

尽管AI模型存在不可控性，可能会做出一些违背物理规律的结论推导。所以这个时候，就不能仅靠“直觉”了，它还需要加入“逻辑”加以纠正。在一段式的前提下，加入“安全逻辑网络”来兜底，保证直觉决策的安全性。

这也对应智己汽车的方案，“一段式端到端+安全逻辑网络”，通俗的来说就是人脑的直觉推理+逻辑分析两个部分，正好对应智己给出的“长短记忆”两个系统结合。

而且智己汽车也不是第一个这么干的，在此之前，最先在智驾领域应用这种方案的是理想，其搭载的E2E（端到端大模型）+VLM（视觉语言模型）分成系统一和系统二，组成了“快慢”系统，两个系统相互配合，构成了人类认知和理解世界、做出决策的基础。

不难看出，两家在理念上极为类似，不过，在技术框架上有所区别。

理想的系统一是E2E端到端；系统二是VLM视觉语言模型，VLM在一些复杂场景下，会对E2E进行指导，像是一位陪驾的老司机，因为是一套视觉语言模型，所以运作频率相较于E2E是一套慢系统。

理想E2E端到端是系统一，作为主决策者，VLM视觉语言模型，当作系统2，可以理解为系统1的“冗余”，VLM在一些复杂场景下，会对E2E进行指导，像是一位陪驾的老司机，因为是一套视觉语言模型，所以运作频率相较于E2E是一套慢系统。

VLM视觉语言模型具备一些逻辑思考的能力，会在一些复杂情况下验证“端到端”的决策，最终实现车辆的兜底或控制。

而智己对应的方案“长短记忆“模式，长期记忆是通过E2E来完成，作为主决策者。

而智己上安全逻辑网络，就不是视觉语言模型了，而是一套由规则构成的逻辑算法，这套系统使用串行处理方式，对数据进行验证，实现算法迭代。

可以理解为对某个场景，某个功能模型的小版本演化，可以达到快速迭代试错目的，然后经过验证过的好的算法和数据，会在一段时间的积累后应用在“长期记忆”，即最终的端到端大模型上。

不难看出，虽然两家采用了不同的技术框架，但在理念上是殊途同归，而且都需要一套安全网络进行兜底。

所以再性感的智驾技术方案，没有足够的安全都是空中楼阁，技术路线或许没有标准答案，不断解决掉长尾问题，才是智驾的最优解。

打开猎云网APP，查看原文

猎云网APP阅读全文

体验更加

微信扫码关注猎云网

猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权；
转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接，如：转自猎云网(微信号: lieyunjingxuan )字样；
猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。
联系猎云，请加微信号：jinjilei

L3还没到，智己就能造L4的车了？

开车靠“直觉”

都得需要安全机制兜底

{{item.post_title}}

{{item.title}}

国产大模型发起春节攻势

市值逼近2000亿，智谱开源最新大模型

有道2025年经营利润增长48.7%，首次实现全年经营性现金净流入