做到第一梯队 长城汽车智能驾驶媒体专访_模子_场景
吴国苏州:我大略跟大家沟通一下关于长城智能驾驶这两个月内的一些动态更新和进展。
本日禀享的内容首先是包括我们对行业趋势的一些认知和意见。其余我们今年在4月份向各位媒体老师先容了我们SEE一体化大模型,这个模型在这两个月的韶光内又有了一定更新和升级,包括功能和场景更新也会在这里跟大家分享。末了是各位关心的城市NOA产品开城的操持,也是大家更为关心的一个内容。
首先我们来回顾一下今年4月份我们发布的模型表现,(***)这是4月份我们SEE模型在盘山公路连续开车情形,可以看到大转弯的角度和连续弯道的场景,智驾模型在当时已经表现了非常拟人化的驾驶表现。
实际上当时这个产品已经不是传统的基于规则决策和方案,它是带着人工智能决策的一体化大模型,以是它对付避障能力都展现了一定老司机的水平。像这样的垂直曲率变革的坡度,对现在的智驾系统也是一个非常大的磨练,其实在当时全体算法状态能够很好的应对这样一些场景。包括路面上一些异形障碍物和通用障碍物的感知和避让,当时也都全部支持。
接下来紧张和大家讲一下我们对行业趋势的一些意见。
实际上这两年智驾技能的进步非常快,各种新的名词也层出不穷,我记得在去年底的时候大家都还在评论辩论BEV+Transformer成为一个智驾的新范式,大家希望把这个东西搬上车,而在今年在几个月前各个主流的智驾厂商都纷纭开始宣扬自己端到端技能。当然从现在本身已经量产的智驾产品来看,BEV+Transformer感知加上人工规则的决策方案,是目前的市场主流。当然这样的技能对付一些高速和高架NOA产品是没有问题的,但如果用2021年就推出的技能去寻衅城市的场景会碰着非常非常多的问题,这也是我们看到为什么现在主流的厂商在开城的过程中快的大半年的韶光,慢的可能几年韶光,目前行业城市NOA的开拓普遍须要上千名乃至几千名的工程师一个场景一个场景去写代码优化,从而导致开城的缓慢。这也是为什么人们在意识到智驾进入城区之后,传统感知决策方案的方法——这种分段式的方法,越来越不能适应城市场景的须要,并且上限很难提高。我们本日看用AI模型实现统一的感知,预测决策方案是一个必要的方法,也是为什么我们大家都在大力的发展端到端技能的一个根本缘故原由。
我认为今年肯定是一个端到端到技能上车的元年,当然端到端技能本身是加快产品迭代,并且让处理每一个case办理的效率更高,但它并不是智驾结局。我们认为全场景自动驾驶,仅依赖端到端是不足的,对付通用场景理解是必要的技能手段。当前赞助技能向自动驾驶迈进,端到端和场景理解是一个一定的趋势。
第二,我们再来回顾一下SEE模型的背景,实在SEE是我们在今年4月份发布的一体化智驾模式。当时背景我们便是为了应对L2+的赞助驾驶由高速走向城市,须要处理无穷多的case,有各种人车混流的路段,且交通场景非常繁芜。为理解决险些无穷多的场景问题,而提出的一种技能理念和架构。它强调的是安全、高效和体验,在这样一个架构下我们紧张干了三件事。
第一,算法架构比较传统算法分段式算法模块发生一定转变,我们用一体化大模型来办理大部分问题,我们相信随着数据量的增长,人工智能技能的进步,模型不断进化,能够更好的办理场景问题,而不须要靠几千人的团队来针对每一个场景去打补丁,这是我们的第一个方法。实际上现在火热的端到端技能理念,我们当时一体化模型就已经得到利用,只是在当时的情形下,毕竟这个模型不是完备端到真个,还有大量人工规则在里面,以是本其实事求是和相对付客不雅观的态度我们还是称之为一体化大模型。
第二,我们以为在当时的情形完备靠AI无论是技能还是,数据量在一定程度上都是有限的。如果仅靠AI做自动驾驶,对消费者实在是不负任务的,我们做了多层兜底。其余在一体化感知方面这块我们走在前面,用一个感知模型替代了多个模型加后处理的感知,我们智驾模型符合端到端理念,完备通过数据驱动使得智驾系统不断进步。
大家比较关心的一个点是SEE这个模型在端到端技能的运用。端到真个理念不是说一步到位的。行业里的智驾方案都是从分段式的架构开始的。最早模型化的是一个感知模型,而后面会有繁芜的后处理和一个多传感器领悟。和,末了才是大量人工编码的决策方案,我们称之为经典分段式的智驾构造。而在端到真个第一步是感知系统,它把前端感知和领悟采取一个模型来实现一个BEV一体化感知,现在市情上大部分车型基本都实现了BEV感知的端到端,而在决策和方案采取人工编码的办法。
第二步是整体智驾算法的端到端,我们平时讲的端到端基本下面两种办法:第一种是现在普遍的做法,它是BEV一体化的感知加上大的决策方案和模型,把两段结果拼起来,紧张依赖模型推理,通过传感器输入就能够实现驾驶轨迹的输出,我们称之为模块化的端到端。而完备端到端,不须要再经由中间的过程可以直接通过感知来输出驾驶轨迹。我们的意见是在现阶段完备的端到端实际上是一个很难演习的模型,并且实际上由于从头到尾都是黑盒,有很多不可预知的问题,通过人工规则对一些场景的修补也是个比较难的事情。而模块化的端到端,虽然技能上随意马虎实现,但由于中间有接口,特殊是人工定义的接口,会有信息通报的局限,也会导致性能丢失。以是我们认为把两种技能全部都结合起来,那是现阶段一个比较好的方案。以是我们说的SEE2.0在这两个月内发生的升级,实际上结合了模块化的端到端和完备端到真个优点,既有直接输出驾驶的轨迹,又有感知加上模块化智能决策方案的结果,末了还有安全策略来给大家做兜底,担保智能驾驶拟人化和安全。在后面分享的片段里面我们可以看到这种能力的优胜性。
大家都知道除了算法的升级,人工智能最主要的一个事情便是数据,我们常日认为从算法到BEV算法到决策方案模型到末了的端到端,数据量是指数级的增长,长城汽车在过往项目里面也积累了海量的数据,我们在两个多月的韶光内把用于演习的数据量进行了翻倍,有一百多台的研产车和大量的测试车在全国各个地方在跑,有大量的数据回传,并且做了数据处理来实现了模型能力的增长。
详细技能迭代升级我们做了四方面的考量:
第一,模型优化,在原有根本上把模型进行了一些优化和压缩,实行效率提升了20%,同时让模型做更多的事情。第二,增加了近300万Clips的实车数据,进行了大量场景泛化事情,我们完成了全国高速高驾道路超过30万公里的数据泛化。完成了四个首先开通城市NOA城市场景的泛化测试,采集数据量超过了1PB,而测试总里程超过了100万公里,停车方面泛化测试了200多种停车场景。第三,我们把模型升级往后省出来的算力做了一部分长周期的场景理解。当然从现阶段角度上,如果不计血本的去做进行场景理解,肯定是做不到的,以是我们把模型对环境影象和剖析的周期从几十秒扩展到分钟级,优化了包括对静态障碍物的绕障,一些不合理的限速以及黄灯闪烁误减速,都通进行了一部分优化。
末了一块是安全能力,一如既往的,主动安全方面,AEB在4-150km/h可激活,同时完成了30万公里的AEB误触发测试,AEB误触发指标也是行业第一梯队的。其余,重点提升人车混流和博弈交通场景下,在担保效率的情形下提升了安全性能。相对付415版本,630整体升级实在是挺大的,无论道路拓扑能力构建上、博弈安全性、对场景的理解这实在都是比较大的提升。
我们看一下详细的效果,接下来是我们拍的路口实车***,对自动驾驶还是比较难的,只有采取AI模型做决策方案,才有可能在繁芜场景能不能像老司机一样流畅。其余在很窄的道路上避让非机动车穿行能力、可通畅的能力都大幅度增加,而不是一味的机器等待。我们强化了模型AI 拓扑能力,包括像锐角路口进行拓扑构建,也大大提升。
下一个是变道通畅的场景,属于行业内范例的城市工况,包括主道辅道切换,路边静态车辆的绕障,,对决策和方案模型能力也是比较大的寻衅。这是一个比较窄路的城中村落,道路仅比车辆宽一些,也没有涌现大量卡顿的情形。
接下来是一个动态目标博弈的场景,我们可以看到实际上通过路口有很多情形是各种车辆博弈,包括人车博弈和车车博弈,如果一味追求安全,智驾系统虽然很安全但没有人会去利用。在一些场景下,车辆企图超越前方的车辆,但是一看超不过,立马自动放弃,这是跟诸位老师基本是一个水平。
末了一块行车场景,这对人类驾驶是特殊特殊大略的一个场景,反而是传统智驾基本都很难搞定,特殊是超宽没有车道线的道路,对一些不正常的靠边是非常普遍的,而这个模型采取的端到端技能,学习驾驶人的行为也会比较轻松的应对这个场景。
其余跟大家分享一下停车的改进,在这两个月之内我们做了大量的泛化测试,完成了主销城市里面超过200种停车场景泛化,同时特殊优化掉头停车、斜列停车、车头泊入。影象停车方面,对舆图学习和巡航车速都提升到一个令人满意的水平。超窄车位,对体积比较大的车辆这样的能力也是必须的,泊入时候两边仅有20厘米旁边的空间。末了一块是断头车位,虽然那很多停车产品都能支持,但对空间的感知能力和借用空间的方案能力决定停车效率。我们能够及时创造对面的空车位,三把实现掉头。
末了一块是主动安全,现在法规项目满分是大家的必选项,我们我们除了法规项目,更加在意其在真实场景中的表现,例如这里有个躺在地上的假人,夜间场景侧翻车辆,都实现了很高速率的AEB制动。
末了关心的是我们城市NOA开城操持,随着新车的上市,首批开放四个城市,第一是保定,第二是深圳,第三是成都,第四是重庆,这四个城市非常非常有代表性。
保定是历史悠久的古城,特点是施工道路非常多,包括新旧道路交替,无规则的车道线和车道线缺失落是非常普遍的征象,特殊是老车区路窄,车流密集,是非常有难点的一个城市。第二块是深圳,高楼林立,城市高架和地面交替非常多。第三是范例的成都这样的二线城市,路窄,也有大量旁边的公交车道,还有待行待转区也比较多。末了我们也先容了山城重庆,对智能驾驶来说是一个高地,垂直坡度变革非常多,道路曲率和宽窄变革范围都非常大,立交密度非常大。
如果搞定这四个城市,那全国80%城市的场景都能覆盖,为我们接下来每个月的开城操持有了一个很有力的担保。从能力上讲,现阶段我们有能力去应对全国范围的城市NOA。但本着对用户卖力的态度,智驾这个东西毕竟不是一个光靠理论打算就可以证明的,它须要大量的实际测试,我们有信心在一个不错的技能根本上,通过我们大量测试,在今年12月尾的时候实现全国所有城市开放。
媒体:咱们这次做的NOA升级,现在自动驾驶这一块我们也知道华为系还有一些其它品牌他们做的技能都非常的快,长城这一次升级和智能驾驶迭代我觉得从整体不管是态度还是实际变革非常大,想问一下咱们跟其它品牌自动驾驶进展而言是一个什么样的。我看了舆图亦庄是自动驾驶的示范区。这是第一个问题,咱们怎么认识和其它竞品自动驾驶的梯队。现在是第一梯队,和别的品牌比有什么上风?
还有个小问题,我自己自身自动驾驶的问题。刚才看的是30万连续高速,那别的品牌宣扬比较少,实在30万间隔很长,会不会涌现这种情形,我原来开过一些自动驾驶的车,比如举一个例子,从北京开到天津,高速域是开放NOA的,中间经由廊坊就断了,会有这么一个问题。可以宣扬30万,30万很长,但固定有几个路线走下来这个10万那个10万,须要有连续性,高速域开放的逻辑水平。
姜海鹏:首先说自身的上风,从去年下半年开始,从城市NOA开始运转,华为、小鹏也好,非常感谢这两家头部企业。原来我们预判城市NOA在2025年落地,正好由于咱们海内头部在非常深入的推广这套系统,起初是有图的,后来逐步蜕变成大模型的无图架构。正由于它们相对激进的推动力度,实在教诲了我们用户,也把城市NOA推向智驾最热门的场景。
今年过年往后我们在CES之间深度试驾了特斯拉,返国往后所有开通智驾功能的车型,华为也好、小鹏也好、空想等等我们都深度做了一些评测和试驾。我以为我们目前的状态不输于任何一家,如果非要排个名的话我认为我们在前三的水准,大家可以自己评价试驾一下。有没有任何吹牛的身分。
试驾有几个条件,第一是大家一定要有城市NOA试驾的根本,不要盲测或者一张白纸去测,你不知道系统的边界在哪儿,我们到底采取什么样的场景来去评测,这方面要具备一定的驾驶履历,具备城市NOA驾驶履历,这是第一点。
第二,要选择一些城市,现在险些每一个算法公司或者主机厂都在讲端到端大模型,我可以负任务的见告大家,现在真正环球搞端到真个,已经按照端到端架构去做的不超过三家,而且纵然在端到端架构之下,实在内部也嵌入了很多规则的安全问题。由于端到端本身不是说去年或者今年特斯拉才提出这个观点,一开始做自动驾驶的时候大家就知道一定有模型化,只不过那会能力不足,模型不足、芯片弗成、数据量不足。以是先把感知模型化,模型进一步模型化,逐步推到决策这一端。原来没有模型的时候我们靠规则去做,后来创造一进城,如果我们还按照规则去做那代码是上亿行代码,你也没有办法知足城市这种场景需求。如果无限制的往上堆代码,可能一个自动驾驶没有3000人没有5000人写不好城市规则,纵然写了往后有一个变动你也很难办理。以是走到本日大家已经很清楚的知道我们必须用数据驱动跑起来,才能降落职员代码的数量,降落本钱,否则是不能成立的。
基于这个,我建立我们做评测做比对的时候可以找一些陌生城市,大家谁都没去过,我一贯在公司内部想推一个智驾赤色旅游区,我们去延安,延安大家在开车的时候谁也不会把稳到这个城市是一个三线城市吗,那边没有高精舆图。我们目前这套架构上风确实是不同的架构,我去了很多城市测试,特意到小县城去一些地区市激活这个功能去体验。
确确实实我们把感知模型化都已经做出来了,从模型里面能输出横中向所须要的数据,据我理解行业里有很多都没有做到,是很难的一件事。一旦模型化往后迭代速率和用户体验直线往上升。还有端到端,包括一些宣扬端到端须要海量的数据,这样的理解我认为是有偏差的,我们做下来往后创造大模型是须要数据,不是一个海量的推理,须要的是分布,数据分布成什么样很关键。比如我有十个场景数据,我有几PB几十PB没故意义,如果场景数据分布得很完备,我什么样的场景都见过,这样对大模型的演习是最好的。以是大模型本身对付数据量的哀求是一个维度,再便是对数据的分布是更主要的一个哀求。以是这块我们也在通过大量的数据采集采取各种各样的数据来提高演习精度。这是第一个问题。
第二个问题,刚才说的30万公里路测,一上市全国各地都会开通,不会按城市和按区域开通,它是一个必备的要素。当然高速都认为很大略,实在我以为之前由于有高精舆图加持,做得并不细化,高速迭代完这些场景,都说高速场景很单一,你看你怎么算。
我给大家举几个例子,高速有双车道有三车道有四车道,有隧道、有桥梁、有下坡、有下坡、有施工场景、有雨天、有夜天,如果我们做一个数学方面乘积是累加出来的,我们算法里面有1万个场景,这1万多场景到底有几个厂家真正把这些场景验证,非常非常少。我们在一步一步往前走,由于有很多场景可遇不可求,比方下雨天遇上一个隧道正在施工,这样的场景到底能不能知足,实在是一个很小的概率,但如果你不能知足,如果碰着这个难题怎么办,会不会出问题,实在我们正在做这些极限的验证。我对高速非常放心,我以为问题不大,但真正把高精舆图去掉往后创造那么多问题。我算了算在高速场景量产无图的高速NOA就两家,大家回顾一下能数上来的高速NOA厂家基本都有高精舆图,由于它本身就有这个资源,城市里面不做高精舆图是由于没有舆图资源,不让采数据,高速都比较谨慎,高速速率很快,危险系数比较高的,宁肯多花点钱把高精舆图保留下来,我们做得比较干脆,直接砍掉了,做的过程中创造有图和无图带来的差异那么大。我们现在很自傲,我前段韶光从保定开车去了一趟成都,又从成都去了重庆,开了20个小时,接管极少,而且你在这个车上开十小时车觉得不到累,尤其是过了秦岭路段,很多公司在高速都没跑过双车道极窄,全是隧道,有的隧道一上便是十几公里,对付旗子暗记磨练非常大,这方面测试要做好。
第三个问题,村落没有车道线,没有车道线场景目前来说对付现在的BEV架构来讲是必须要办理的问题,不办理这个我们是没有办法做的由于我们在路口跟路口之间红绿灯肯定有一段没有车道线,其实在2021年我们测试的时候没有一台车在城市里面通过这样无线的十字路口,只要车道线一调觉得不到立马功能就会退,这两年通过BEV架构可以把道路还原出来。现在有几种办法,有的通过虚拟车线的办法,这是相对低级的一些做法。我们的算法完备通过模型自己出勾引线,我看了没有线我依据场景还原度把方案输出出来,我知道这个车能走,便是通过模型去做,目前按照这个技能去做,整体来说拟人化程度更高一些。
媒体:车企对端到端觉得比较乐不雅观,还是有一些不愿定性,长城那边怎么去看待规避风险?
姜海鹏:端到端一定是未来,但不是终点,现在还有更超前的东西,真正智能驾驶终点一定像人一样有思考,对场景有理解,基于对场景有理解根本之上做智驾的动作。
举一个大略例子,我们在开车的时候前面有一个玄色塑料袋,如果两边有车没有办法绕它,我们人一定会压过去,由于我知道这是一个软体,我可以碾压它,第一是不会出事件,第二不会对我车辆造成侵害。现在不一样,没有办法知道前面是个软体,只知道是障碍物,要么刹车要么避让。未来自动驾驶一定是对场景理解之下的自动驾驶,我们也在做这方面的预案和开拓。我们现在有一些根本,首先从芯片角度,像英伟达的sor(音),包括我们据理解海内一些大厂芯片公司也朝着这方面定义自己的芯片,你们要支持类似于大措辞模型运行芯片。
从模型角度,有我们所谓的措辞模型,类似open AI,支持我们做一些理解,然后做一个感知做一个综合判断,这方面才是将来的结局。端到端刚才也提到一点,实在端到端便是当前基于自动驾驶本身一套技能逻辑,便是从感知这个模型化到领悟模型化末了到规模模型化,是分段的,刚才苏州老师也讲了一下这个阶段。由于人越来越
媒体:咱们长城这边城市NOA节奏比预期要晚一点,中间我们做了哪些调度,包括产品也换了,韶光今后调了。第二,我们刚开始只有缆车这个车,有没有足够的用户反馈机制,同时OTA构造若何?
吴会肖:刚才海鹏说大规模遍及在2025年,我们去年判断节点是2024年上半年。后来跟整车协同,包括在开放过程中对这个模型架构上做了一些调度。然后在落地过程中我们也创造全体行业里面都会面临和用户接管人机共驾的阶段,还是成分比较多。蓝山智驾款上市就会有这个功能,但最近开多少城开完城之后多少路段开放也做理解释。关于上车之后OTA检测刚才吴国苏州也放了一张图,我们立时会开直播,也会请大家去亲自试我们车,主交互会有一些优化和调度,开城不会再OTA了,很快就开了。我们保定周围面积很大,有屯子有山,我们都会到这些路段去测,不用担心,把能导航的切得很碎,一些环岛、掉头人开都很繁芜的须要接管。刚才还谈论,下车进到程序里面还须要退一下,把ETC和高速NOA和城市NOA再连接一下,车上标配的ETC,现在正在做打磨。
姜海鹏:你说的是我们车定的是6月30日,今后挪了两个月的韶光,这个延期不是我智驾方面延期,是他们车型方面延期。非常感谢给我们智驾多了两个月的韶光,由于他们在做一些组织架构一些优化。
媒体:刚才苏州老师讲的时候说了一个场景,在做赞助驾驶方案的时候还是有个安全兜底,由于我也是做汽车的,咱们原来十年前长城博士,现在是友商。我比较理解这个东西,我理解我们做一个冗余,实在现在有个场景,常常性的有各种垂媒来测AEB测速也好,让用户来看觉得谁的车速越高,或者谁的性能越好,那他的车牛。但我从作为一个电动车主体验来看,余量留得特殊多也不好,在应试工况里面这种成绩会好,我的那个车常常AEB误触发,我很不喜好过于守旧的冗余。
第一,长城会卷这方面的东西吗?第二是对端到端大模型,我们不是在做纯挚的一些算法,而是通过学习无数用户已经产生过的case,是不是能办理类似于这样的用户体验?
姜海鹏:首先我们肯定会卷这个东西,不卷弗成,这两年自动驾驶突飞年夜进,加快了行业的速率,加快了大家对这个领域的认知,但AEB这个事诚笃说本来是一个紧急救命的功能,现在变成了一个体验的功能,违背了ABE的原则。我们看120公里刹停,包括行业里面有很多测试这些场景,实在带来积极浸染很大,也带来一些负面影响,我们在猖獗追求这些数据,唯一一个考察最大的指标项没人能做,便是你怎么能在触发和不触发之间找到一个平衡,环球做AEB最好的是膜拜,它的误触发率大概是几百万公里,但目标很大略,便是行人、车辆、自行车,并不是没有识别的能力,是由于创造他创造如果把锥桶拉进去往后误触发直线上升,每一次误触发比漏触发乃至精确触发带来的危害还要大,由于不预期的刹车有可能会造成大面积的追尾,这都是经由严格数据评测、实验得出来的结论,现在只看数字俊秀不俊秀,这个误触发没有办法公开测试。由于测试的繁芜度导致我们测这些特殊表面化的数据,实在把我们AEB路自带得有点偏颇了。
本日也跟各位媒体老师做个交底,评测AEB最大的指标是不触发,绝不是120公里刹停。放在现在这些头部自动驾驶公司里面都能做到,为什么大家不去做,一旦放开往后误触发率直线上升,希望大家宣布的时候能够有一些精确的勾引,这才是对这个专业负任务的一种态度。首先这是AEB这一块。
吴国苏州:现在端到端状态大家想象的是说大量的车产生数据了,把车身情状摄像头把数据采回来模型去学,不是那么大略,按可以想象虽然人学驾驶越来越好,但人实际说对驾驶这件事情很难想象一个字都不识的人他能把驾照考出来,要积累对根本背景知识,对运动目标判断,对付AI神经网络也是这样,你得通过一些机器学习和演习手段,通过网络机器设计,让网络本身能具备创造道路上和你有影响的构造化的一些特色,这些东西实在都须要工程师通过工程技能设计的,只有把这些东西都设计好了,你才能有可能学末了一步,学人类的驾驶,并不是那么随意马虎。
很可惜,现在完备端到端让模型设计好了一次性学出来,现在的表现实际上在大部分场景下挺差的,以是才会有业界说的两段式的端到端、模块化的端到端也好,先去感知模型,这是比较空想,乃至实景模型串在一起来去做所谓的端到端,实际上这都是工程技能上的妥协。第一是理念上,第二是工程上,你想办法一点点做法,逐步随着8履历积累和技能提升才有可能把模块化的端到端向完备端到端迁移,末了才能形成我学习就可以了,这个事情绝对不是说一天两天或者一步,我前面的路不走我直接走后面的路达成,这个不太可能。
本文系作者个人观点,不代表本站立场,转载请注明出处!