极氪石穿空:端到端Plus更像“老司机” ,提前决策规避潜在风险

孙莹 编辑
浏览 · 2024-11-20 19:32 · 发布于北京

[汽车之家 行业] 11月15日,第二十二届广州国际汽车展览会正式开幕。在本届车展中,汽车之家邀请了极氪智能科技产品管理部部长石穿空展开深入交流,共话车市风云、聚力行业未来。

在此次交流中,石穿空向汽车之家表示:“此次车展,我们发布了面向未来的技术架构,引入了端到端Plus的概念。Plus是什么呢?就是我们的数字先觉网络。数字先觉网络不是一个图,它更多是本地司机的长期记忆,就和大脑的海马体有点像的,短期的记忆。它每天都在发生,又很重要,转化成长期记忆存储起来给大脑调用,跟海马体的功能很像。有它的加持,可以做到决策的提前,规避潜在的风险。”

汽车之家

极氪智能科技产品管理部部长 石穿空

以下为对话实录:

汽车之家:目前无图智驾大概量产上车的情况怎么样?

石穿空:我们现在包括无图城市NZP10月份开始大规模公测,到今天为止我们进一步扩大公测规模,预计可以达到万人的规模。到今年年底整个无图NZP就会释放给全量的用户。本身我们全国万人用户可以到处都能用,到年底所有用户都可以放给他们,包括搭载“浩瀚智驾2.0”的几个车型都会开放出去。

汽车之家:我们的无图智驾在今年年底可以全国开通,全国跑了?

石穿空:全国和全量搭载浩瀚智驾2.0系统车型的用户。

汽车之家:如何理解我们的数字先觉网络,端到端架构是怎么应用?

石穿空:因为极氪相对来说起步比其他新势力,一些头部友商起步比较晚,所以我们在整个技术的规划,尤其是技术架构的规划上面,宁愿在开始的时候想的清楚一点,这样避免在后面少走弯路。我们一开始就做了很多思考,端到端是行业都比较认同的技术,本身这个事情是确定要去做的。

从去年12月第一代发布的时候,我们已经在做。包括近期友商在做的视觉大语言模型,我们阿尔法实验室也在做这个研究,同步我们在明年上半年,甚至可能会更早,类似于视觉语言大模型也会上车。

在这个基础上我们也会思考,汽车的传感器不只是视觉,还有激光,还有毫米波雷达,甚至将来还包括声音,因为人开车时都有各方面的思路,这些信息都是对于自动驾驶来说,我们将来不仅会搞视觉语言大模型,还会做多模态的语言大模型,MLM的大模型。这是行业在走的方向,我们也是提前去思考的,并且端到端已经在今年8月正式落地了。

我们同时在思考另外一个问题,比如我经常在杭州湾和上海待的时间比较多,开车去上海和杭州湾,用句夸张的话说,我闭着眼睛都知道上下班的路是怎么样,相当于是本地老司机。其实我们会发现,包括落地端到端之后,整个无图NZP我们做了很多测试,本身它实际的体验已经非常好了,相信整个行业也是一样的。包括路口的通行,类人性已经非常好了。但我们发现一些问题是端到端和VLM,甚至将来的MLM可能解决不了的。我们思考一个问题,为什么一个本地老司机在本地开的很好,但到了外地他就会谨慎很多。因为我们想不通,你的驾驶技巧也在,驾驶经验也在,该学的这些知识也都学过,为什么到陌生的地方就是变谨慎了,开的慢了,所以我们带着这个疑问也在目前技术架构上思考这些问题。

这就是今天我们带来思考的结果,也是跟行业分享一下我们思考探索的情况,今天上午我们发布了面向未来的技术架构,在端到端+MLM,以及有一个安全底线基础模型上,我们引入了端到端Plus的概念。Plus是什么呢?就是我们的数字先觉网络。举个例子,比如说你看到前面某一个车,可能是三车道的路,其中一个车道前面有一个深坑。人开呢,这个深坑会绕开,或者实在绕不开,可能会减速。端到端Plus大模型如果这种场景学习过,它在光照条件比较好的情况也能去处理的。有可能在五六十米、七八十米之外看见之后,它学过了,周边的交通环境也比较好,可能会绕开,当它绕不开也会减速通行。但这里仍然存在一个问题,有些场景下,比如说逆光或者黑夜,有可能整个光照条件也不好,等它到七八十米时并不能很好地实时识别,可能要等到更近了,包括大灯照的更清楚了,才能识别准确,更可信任了。那时候已经是二三十米了,等它识别出来,一个80码的速度去过,它可能来不及响应。识别之后有可能不得不来个急减速,体感就很不好。急减速之后还得压过去,这个坑如果深的话,有可能胎或者轮毂都会受到伤害。甚至更严重的,还会影响方向盘,还会导致事故。

也有些人会说不一定减速,周边没有障碍的话可以发起急的转向,但要在二三十米发起急转向,后方有来车也是很危险的。不管怎么样,这种情况就会导致潜在风险的可能。你有数字先觉网络,因为这条路假设是陌生的,没有办法。这条路你是每天上下班都会开的,我不一定要看见,我在1公里之外,甚至200米开外就知道前面是有个坑的,我没必要等到看到再去做响应,可能会提前去做一些响应,是表达这个意思。数字先觉网络可以做到决策的提前,规避潜在的风险。

举个例子,比如他们都说扁鹊治病很厉害,但真正厉害的是扁鹊治未病之病,生小病时已经治好了,其实先觉网络就是这样一个思考!

汽车之家:比如我们很多车在路上跑会收集很多数据,把实时数据,比如路况信息,一些障碍信息提前输入到端到端Plus网络之中,同样路况下我知道前面有一定障碍风险了,提前减速,做提前的准备,再结合端到端更好地去过这个路口或路段。

石穿空:对,我们说本地老司机。

汽车之家:极氪车主都可以共享数据。

石穿空:现在我们刚起步,将来我们规划当中你开的本地化信息也可以共享。我这边要强调数字先觉网络不是一个图,这次我们的无图NZP只用了SD的导航信息,任何高清地图我们都没有用。数字先觉更多是本地司机的长期记忆,就和大脑的海马体有点像的,短期的记忆。它每天都在发生,又很重要,然后会转化成长期记忆存储起来给大脑调用,跟海马体的功能很像。我们起了一个名字叫“数字先觉网络”,帮助大家更好的理解,它不只是一个图。图里可能是一些车道级信息,然后停止线,拓扑做得很细,但你会发现坑不能算作传统意义上的高精地图。还有小区路口,经常有车蹿出来,这不是高清地图能标识的。还有红绿灯被树叶遮挡,这种是动态的时空环境的信息。

我们把数据先觉网络归纳两部分:1.信息先觉,有道路先觉、行为先觉、时空先觉。2.经验先觉,我们将来会利用数字先觉网络去把人驾的经验和信息进一步学习和提炼,实现驾驶经验的先觉。我们知道上海司机开车的风格和武汉司机,成都、重庆、广州的开车风格都不一样,不仅每个地方司机开车风格不一样,甚至每个人开车风格也不一样。这里把人开车的风格,将来也可以丢到数字先觉网络里训练,可以实现千城千面,更远的将来可以实现千人千面,因为只有自己的开车风格是最习惯的。你把一个上海司机开车风格丢到武汉去,他肯定不喜欢的。

端到端比以前规则时代已经好很多了,因为规则时代可能更像是新手司机,我不知道这样比喻对不对。可能老师教过的,教练教过的,他知道,他会去开,老师没有教过的,他不知道怎么办了,像新手司机。端到端之后,他更像一个开了几年的老司机,老师教过的东西,他上了路也有没有遇到的情况,他自己摸索了。就像数据给喂了之后,他摸索学会了,有一些老师没有教过的也能开。它的泛化性比规则要好,因为数据丢进去之后,它不仅遇到的问题知道怎么解,类似的一连串的问题也能解。端到端还是比规则时代提升了很多。

如果比作驾驶考试的话,相对于原来规则你考个六七十分,端到端上限能大幅度提升到90分。而VLM/MLM,像人类老司机一样,我们开车场景不只是车或者人,有一些物理世界通识在里面。比如一个尼龙袋,端到端学习后认为是一个突出的物体,是个GOD通用障碍物,不能撞。但有了VLM/MLM,它知道是尼龙袋可以压过去,有更多的知识在里面,不仅是交通知识,会帮助这个司机变成一个人类老司机。

如果说端到端+VLM/MLM,可以做到95分,再进一步你要考到99分的话,就需要数字先觉网络,将来在更多的情况下体验会更好。

汽车之家:特斯拉和小鹏已经是纯视觉,还有激光雷达的辅助,极氪未来考虑纯视觉路线,还是激光雷达技术作为保障?

石穿空:在技术上我们两条路线都是在做准备的,为什么都在做准备呢?其实有一个信息,我不知道你有没有注意到,我们“浩瀚智驾1.0”发布之后,我们上线的007既有激光版又有纯视觉版的。像其他友商最近在上纯视觉的智驾,其实我们去年12月份时候已经上了纯视觉版的,那时候只支持高速的能力。我们第一次量产时是同时配置两个车型,其他厂商要么发激光的,要么先发视觉的,没有两个配置一块同时发的。

对于第二点来说,你的问题更多是纯视觉将来要不要去做纯视觉版城区的智驾。技术上我们会一直准备的,但用不用,这里有两个考量,我们本身的观点认为作为将来智驾的发展,包括现在从安全角度来讲,激光也还是有必要的。因为激光本身是主动光的探测,它在整个探测结果的时延、精度以及测速和测量距离、位置的精度上,其实是有天然不可替代的优势。然后尤其在黑夜或者雨雾、逆光场景,它不像摄像头会需要ISP做不同的调校,让算法去调优。本身算力就会涉及到时延,激光是主动物理的探测,纯视觉是基于算法的,时延上本身就会有些影响。还有测量精度,激光是有些优势的。我们认为纯视觉就像教一个小孩去学习,他本身学习能力要很强,视觉是打底的,是主要的东西。但激光并不是没有用,激光的优势是显而易见的。你优先把视觉做得很强,再用激光好上加好。

我们认为激光将来更多用于安全的冗余、安全的兜底,包括面向将来更高阶的驾驶,怎么去做冗余,传感器的冗余是很有必要的,这是技术上的思考。

当然,是不是激光或者纯视觉,更多是商业上的思考,成本上去掉激光会更便宜一点。还有车型的定位是怎样的,其实好多用户越来越懂智驾了,它的芯片算力大不大,有没有配置激光,用户第一印象就是有没有这个。有了这个,我们会认为好,然后再说算法怎么牛,体验好不好。所以是两方面,一方面是技术的,一方面是商业上的车型定位,以及这个车型将来对应的用户群体怎么样,这个可能不是技术上怎么样,技术上就做好准备。

汽车之家:我们现在听到一些用户声音,一种是用纯视觉的,觉得算法已经特别好了;还有一种认为用纯视觉就省成本,不给高端硬件。还有的认为用激光的更安全更有保证,还有的认为用激光的算法不好,用户也在摇摆之中,这个阶段智驾大家还是在选走哪个方向,哪个路走得更顺,我们都可以去选择。

石穿空:这两个技术路线,我个人认为不是技术路线之争,因为带激光在视觉算法上的技术储备我们一直在做的,不会说用激光之后纯视觉就不搞了,肯定纯视觉基础上再加入激光,同步在搞,本身不是技术路线之争,完全是产品定义的考量。你可以有纯视觉,也可以有激光,具体取决于自己车型面向的是什么样的用户群体,你的车想卖到什么样的成本价位,用户群体是怎样的,是这个思考,我认为不是技术路线。我不认为搞了激光之后,视觉技术就不搞了。

汽车之家:最后一个问题,刚才聊了这么多智驾方面,极氪除了智驾,在本身产品竞争力上也很强,现在有什么可以分享新技术,以及未来极氪产品的规划。

石穿空:面对未来两三年的技术架构,包括我们早上发布端到端Plus的新技术架构和数字先觉网络,技术方面我就不再重复了。

产品上最新的规划,也是前面陈总介绍过的,除了无图城市NZP,我在年底会全国全量释放给搭载“浩瀚智驾2.0”车型,车位到车位的功能,2025年就看车位到车位了,因为2024年大家都在看无图全国,2025年就在看车位到车位。车位到车位,其实目前为止,但我还没有看今天广州车展的情况,反正之前我了解到也就1-2家友商给媒体试驾过,给用户试驾过,其实没有几家。我们极氪是第一批这样去发,包括10月底我们已经给大量媒体真正体验过端到端,我们地库的两个抬杆可以过,还上了高速的ETC,我们的端到端支持一次可以过4个抬杆。

汽车之家:今天友商这些我们在实践中已经可以体验了。

石穿空:因为我们本身泊车的能力也很强,机械车位也可以支持,因为现在整个行业支持机械车位的也就一两家。我们针对无划线车位,本身泊车就支持。所以端到端我们预计2025年1月份会分批开始启动,向用户推送。我们的目标是计划在2025年年中左右,上半年看能不能更大规模给用户推送出去,大概是这样的。

汽车之家:谢谢,今年极氪是给了我们非常多惊喜的品牌,包括产品,包括技术,包括价格。

石穿空:下半年我们迭代很快,包括无图智驾方案,用户反馈说其实他没有那么急,但极氪是真的快!

汽车之家:以前我们感觉新势力往前跑得很快,我们这些有传统车企背景的品牌会比较严谨。现在看,极氪不管从严谨角度还是从技术迭代角度都很快,让用户可以持续体验,在销量上势头也很猛,包括7X销量也是能印证的。除了卷价格之外,极氪的产品力也很强。

点击展开剩下90%
打开汽车之家 阅读体验更好
纠错或举报 向本文作者孙莹提问
汽车之家问答 我要提问
查看更多问答
原创精选小视频
打开App 查看全部条车友评论
发表评论…
收藏
相关阅读
加载中...