10万级车型搭载百度高阶智驾方案指日可待 未来API绝对要加钱
易车讯 近日,在百度Apollo举办了以“破晓•拥抱智变时刻”为主题的智能汽车产品圆桌媒体专访上,百度智能驾驶事业群首席研发架构师、IDG技术委员会主席王亮老师;百度副总裁尚国斌老师;百度智能驾驶事业群智能汽车业务部总经理苏坦老师分享了百度高阶智驾的方案的产品定位和思考,以及未来在产品上的规划。
以下为采访实录:
主持人:非常感谢大家参加本次圆桌媒体专访,和在座的各位都是认识很久了朋友了。刚才的发布会上,我们共同见证了百度Apollo三大智能产品的亮相,不仅代表着百度智能技术能力的升级,更代表着我们对市场上一些声音的回应。今天我们特别邀请到百度Apollo业务重磅嘉宾回应媒体朋友关心的问题,从新产品到业务战略,之前也跟大家收集了一些问题,今天正好帮助大家加深对百度Apollo的了解。
请允许我简单介绍一下参会的重磅嘉宾:
百度智能驾驶事业群首席研发架构师、IDG技术委员会主席王亮老师;
百度副总裁尚国斌老师;
百度智能驾驶事业群智能汽车业务部总经理苏坦老师;
下面就请大家踊跃提问!
媒体记者:请问王总,端到端大模型是这一年集团和行业提到的比较热的话题,业内认为这是自动驾驶能力突破的关键点,您怎么判断端到端大模型的技术演进能力,如果能够实现技术突破的拐点会是怎样的机会?
王亮:端到端确实是比较热,去年我们也有仔细研究一下,内部可能会稍微打个引号,有人说中间会有巨大的网络和控制信号,但我认为还是会有一个大的分层的概念,抽象来说就是大的感知模型和决策规划模型。现在主要是把知识规划用于数据驱动,能够带来更多的收益,美国很多媒体说“跑得更像人了”。我们自己的智驾没有把决策充分规划的话,大家可能开着觉得有点尴尬,工程师有自己的一套逻辑,比如风险比较高,某一条道路就比另一条道路好,这跟人工的感觉是不一样的。个人比较相信自动驾驶的方向,今年国内应该会有比较明显的进展,通过更高质量、更大数量的参数,各个方向的应用都是比较有规律的,所以没有什么问题。
媒体记者:刚才发布会的时候听到视觉在未来还是很看好的,激光雷达只是过渡方案,这是百度的共识还是在行业里有相当部分已经形成共识?技术路线在未来还有没有变数?
王亮:最近我看到华为也有推出城市版本,但我不确定会不会一直这样定义。小米的雷军也讲了这句话“视觉是终局”,不过现在还比较难,需要更长的时间。现在有些未经验证的情况,越来越多的人在做纯视觉。我相信L2+的产品定义上,视觉还是很有潜力的,相信越来越多的人能够看到这种趋势。
媒体记者:那些做地图的公司会不会受到影响?
尚国斌:我们自己不会受到影响,真正做地图的公司只有少数的几家。我反而觉得这些对做地图的来说是一个机会,很早就在坚持视觉的方向。高精地图可能是需要的,其实高精地图不是不行,体验还可以,现在各种智驾评估可能都是带图的,无图就是自己放视频,说明北京这些地方都是依赖高精地图的,成本也确实很高。因为车企本来保有量就还不够,所以这种商业模式到底可不可行,短期的量可能比较小,但确实又比较需要。我们可以不用,做一个无图的方案。乡间小路可能看着很复杂,实际上很简单,但在城市复杂的道路和立交桥下还是需要的。现在这个事情还是噱头的成分比较高,无图还是达不到的。最核心的问题还是成本要低,如果全国都铺下去的话需要100个亿,李总都觉得贵,更别说其他人了,所以一定要把成本做低。我们内部就是用感知大模型,看一看能不能产生可规模化的地图,车企看到是大模型就说要高精地图,用户感觉到了才相信,不然没有人会相信全国都能用。我们内部也有在沟通,确实是完全可以替代。但这里还是有一个过程,大家还是依赖高精地图,同时又依赖营销层面,一定要降低成本。
媒体记者:最近两年感觉高阶智驾的方案也是在打价格战,刚才您也说Pro已经进入万元时代,以后可以在20万左右的车上落地,之前包括大疆在内都说高阶智驾已经进入千元时代,就是10-15万的区间,百度在这方面会有不足吗?或者以后会推出更大众的方案吗?如果从成本的角度考虑高阶智驾方案以后会走向10万以下的市场吗?刚才苏总说到北京车展上都会提到大模型上车的问题,但也有夹杂一些概念,现在行业真正做到上车这一步的大概占多大比例?真正落地是在什么时候?
王亮:今天我花了比较长的篇幅把高阶定义清楚,不是每个人都可以说这两个字,符合我们产品设计之初的四个必要条件,大家可以数一数,我不认为那些企业都算。10万的车搭载这些功能,你要是用起来觉得“还要什么自行车”也可以,但如果开高阶的,包括华为、极越,感觉完全是不一样的,包括演进的速度。现在极越提供的每个版本都有新的功能,会有“月月开新车”的感受,所以还是要区分的。记忆行车就是已经开的地方,通过数据的回收和模型的训练开得比原来更好,这才是记忆行车应有的,所以我觉得产品定义有区分度。当然,行业没有形成共识,因为百度一直在讲自己的定位,不像每家车企和供应商都有自己的资源禀赋,可能就打低价市场扩大规模,我觉得也没问题,但这不是百度的强项。百度的强项还是AI、模型、数据驱动算法层面,也是找到了自己的行业定位,就是15万以上的车型高阶智驾,华为、大疆也做不到,属于两个极端。
媒体记者:以后随着成本继续往下降,会不会进入10万的市场?
王亮:随着芯片降本,X计划就是不指定芯片,但会对算力有一定的要求,大家都可以看。要是成本更低,我们进入10万的车型也是指日可待的。摄像头的价格也比较稳定,最大的成本还是芯片。
苏坦:大模型技术出现以后,我们也有深入参与其中,因为演进得非常快,而且也带来了很多惊喜。刚才问到大模型是不是元年,未来的趋势怎么样。我自己认为2024年就是元年,而且不是自己拍脑袋的,而是系统论证的结论。我们有几个方面在迅速突破:端侧算力,大模型是千行百业参与进来的方向,过去芯片厂商SOC里面CPU和GPU的利用率是比较高的,NPU投入是不够的,中国曾经有一个非常流行的车机芯片,里面曾经内置NPU,但由于工具链不完善无法启用。过去我们已经做过类似的,但因为应用场景很局限,应用需求不明显,以至于内置NPU芯片都没有办法启用。那是那个时代大家对端侧算力的理解,但今天完全不一样了,所有端侧算力的规划都非常有关系。在我看来,端侧基础设施是一个很大的进步,今年1月初到现在也有各种各样的AI设备,今天还真的不是炒概念,获得革命性突破以后大模型可以精简出专家模型。大模型最开始出现的时候大家有点过于神化,认为浩如烟海的大模型会带来指数型跃迁,后来大家发现把模型做小,做好数据训练,以更精简更高效的方式也可以达到类似的效果。这些技术的突破又让模型侧对场景的聚焦变得更好,所以算力的增加和模型技术本身的突破是让2024年成为大模型的元年。
大模型时代很重要的就是数据,过去的数据结构和大模型是不太一样的,在此之前很多厂商都不太重视积累真正适合大模型训练的场景数据,但最近两年数据积累也都比较到位。有了算力的支持和模型技术的突破,某种意义上可以把2024年作为大模型的元年,至少从我个人来说是非常坚定的。为什么在发布会上讲大家要参与?这个趋势是对的,但有些人是看到趋势才开始做,我们做了以后趋势才出现,今天我们比较自信的点在于把我们自己看到的东西做出来,所以是开箱即用的东西,但我们讲出去以后可能有些厂商在车展期间拿开源模型调一调,把开源的Logo改一改。我觉得这是好事情,也是我们过去坚定走的路,后来发现不是只有我们走的路,而是大家都在走的路,只是我们走得更靠前。如果说2024年是大模型的元年,我们希望今年年初明年年初就让用户体验这些产品,而不是到2026年或者2027年,那就太晚了。
媒体记者:现在每个厂商都在宣传自己车型自动驾驶的能力比较强,一些媒体也在测试这些汽车的自动驾驶能力,百度认为一个产品的智能驾驶能力应该从哪几个维度进行评价?
王亮:我们自己内部当然有不同的测试方式,就是研发过程中迭代验证的手段,其实只有一点,就是用户渗透率。我们迭代产品是从用户的视角优化,不是媒体评测的视角,那样一般都比较博眼球。
媒体记者:用户渗透率更加偏向自己跟自己比,蔚来和理想去比可能不公平。
王亮:要是过度重视跟友商之间非标准的对比,我觉得有点走偏了。百度是为了服务好客户的用户,为他们产生价值,未来商业模式能够闭环,不是跟蔚来、理想个人的恩怨PK,那样就偏离本质了。
媒体记者:今年前一段时间在首钢园的活动上李总分享了自己的一本书,婴儿大脑出生的时候所有褶皱就已经存在了,不是后期才长出来的。类比现在的大模型和智驾,诞生之初就有架构,长大以后慢慢展开。之前每次技术变化都有路线,包括要不要上激光雷达,接下来会不会引起路线之争?就是有大模型的企业带着天眼去做,跟那些从底下往上走的企业,是不是有明显的不同?会不会再次激起一轮路线之争?
苏坦:我认为这个事情不是路线之争,某种程度上是有共识的,天花板不一样,核心在于场景的孵化。过去的开发就是有一定识别能力的小AI,有多少人工就有多少规则累加出来这套程序。智舱大模型应用场景越来越复杂,更多的是用模型模拟人的行为,替代一些规则。实话实说,前者技术路线在历史的发展过程中是解决了很多问题,最大的问题在于场景复杂性达到一定程度,边际效应很差。就像工业机器人,一个机械手可以把一个瓶子拿起来放到旁边,流水线是可穷举的,从A点放到B点是可穷举的,那就写规则,但为什么家庭服务通用机器人也有出现?因为前者的场景相对简单,规则效率很高,后者鱼香肉丝怎么炒还挺复杂的,所以就需要下一代的技术。个人觉得这些不是路线之争,而是要面向高度复杂性的场景,端到端的大模型解决问题更有优势。
媒体记者:尚总刚才在发布会上提到一些车的交互还是传统的手机模式,用户的使用并不频繁,但中国的智能座舱很大程度上就是把3C智能手机的逻辑套到车上面。我们发现如果抛开大模型的话,智能手机的发展已经出现了瓶颈,您怎么看的未来智能座舱?如果手机都出现了瓶颈,智能座舱的发展方向是什么?
尚国斌:我们两年以来一直没有大肆对外拓客,只是找跟我们心智一样的客户,其实就是判断手机上做导航确实是遇到了天花板,屏幕就那么小,芯片就那个样子,但车上的空间确实挺大的,因为整个芯片性能和驾驶舱的关系,可能再过十年还是有10%的可能性,手机已经达到90%。我们当时下定决心,就是要做手车一体,因为引领未来导航发展的不是手机,而是车,不是拿着手机放在车上面。今天我们讲的语音交互是先在车出现的,不是手机,要是在车上不用语音,很多交互都没法说,手机就不一定。我们在这种判断的基础上,未来车的地图会走向哪里?我觉得很难判断,要是今天已经把导航变成IoT的要素就有了基础,就像基础设施,有了车道级就跟手机不一样,能够长出什么我都不知道,甚至可以把一栋楼换个颜色,就是因为车上有了新的数据、新的算法、新的基础,可能会远远超过我的想像。我们未来还会继续发布,每发布一版都会在车上带来很多不一样,绝对不能只靠百度一家来做。要是让新势力来做,以前百度是有5-6亿的用户,所以不是谁做车机更好的导航,要么是我们,要么是别人,谁先革自己的命?我们先革。
媒体记者:王总如何看待高阶智驾开启率的指标?是不是认可这样一个指标评价智驾系统好不好用?高阶智驾自己决策行驶的时候,不同司机对智驾决策的预期是不一样的,要是长时间不符合预期,可能就觉得用着太吓人了,您是如何调校系统符合更多的人的预期,能够做到启动率更高?
王亮:智驾目前还没有达到用户购买Top3的考虑因素,体验没有做到离不开,并且为之付费。我们觉得会有付费意愿,但是目前很多车型还是有些免费期,就是培养用户习惯。我们当时做的时候也有很多自己的想法,包括驾驶的风格,可能本身的性格也会影响身边团队的性格,然后在车的驾驶风格上找到一些差别。我们最后的经验趋同的话,大家一定是回到正态分布,很多人开始倾向更加可预测、更加安心的风格。未来极越的版本会给用户一些选择,调试很多东西,包括忍耐度,可能一直跟着前车,不超车,也可以比较敏捷地超车,不会被前车耽误。应该不叫记忆行车,而是高频路线的持续学习,跟自己风格接近的模式,这些就是智驾下一个发力点。
媒体记者:这些问题给到尚总,地图+大模型的模式是否能够有效降低高精地图的成本?大概可以降低多少?推广的过程中有没有什么限制?智能座舱导航地图的呈现模式和呈现效果是怎样的?百度想做的未来形态是什么?
尚国斌:我们可以把传统地图的制作成本降低95%,现在可能是99%更多。我们利用大模型做到30-50万公里以后,整个大模型的效率比以前更高了,整整提前了九个月。以前基本上都是靠人做,现在人只是处理一些Case。我们的友商还在讲做到什么尝试,我们年底可能把地图全部做完。其实地图做完以后最难的是更新,三车道变成两车道,这些非常依赖于众源数据。百度在这方面的优势也比较多,包括数据闭环。最大的众源其实不是车,而是地图,因为每天有海量用户使用地图,成本很低。我们在小红书上看到监测马上就会更新,1亿的百度地图用户,很多地方两条轨迹变成三条轨迹,1亿用户使用百度车道级导航才是我们地图最大的优势。我们不光做出来了,每天还有1亿用户在给我们更新。
尚国斌:百度做这些的东西未来都会成为智能汽车的Core,就是让智能座舱从过去没有什么智能化的容器变成一个新的载体,百度地图V20希望不是大家熟悉的4:3、16:9,而是也能够通过API延伸到智舱的每个地方,甚至可以变成背景。每个品牌的调性加上最好的百度地图核心,加上足够开放的API,将来可以看到很多很有意思的玩法。不是我们想做成什么样,而是把开放性拿出来,让大家想做成什么样就做成什么样。
王亮:以前开放的API绝对要加钱。
媒体记者:今天公布的产品包括Pro和Max,Max版本无图的进展是怎样的?Pro应该就是到城区以上,L2.5还会做吗?有没有可能不做了?去年年底到今年一直在提端到端,真正把端到端应用在车上还是比较难的,因为特斯拉纯视觉把V12做出来以后,国内很多厂商至少有了一个方向,现在最大的Bug在于异构架构在国内没有一个答案,甚至没有一个指引。要是特斯拉异构架构去做端到端,至少证明这件事情在国内是可行的。异构架构要做端到端,是否具有可行性?怎么在架构上理解这项技术?
王亮:您觉得异构架构是什么?
媒体记者:就是多传感器架构,融合激光雷达。
王亮:这个不矛盾,可能短期更容易。特斯拉看着是端到端,前面花了那么长时间建立线上线下的视觉感知能力,要是打开的话可以看到还是有些感知的任务监督整个学习的,时刻可以把障碍物拿出来看,后面再加上决策规划的模型。现在其实视觉能力下,训练出来以后在不太能够解释的链路需要多少数据、多少能力,可能没有人说得准。特斯拉的优势就是已经有了非常靠谱的感知,再把原来结构化的结果传递给下游,两边可以带起来,而且还有一个很大的优势就是可以同时优化两个网络,应该是不矛盾的。Pro其实也会支持精度,无图可能是不存在的概念,因为还是那几个条件,至于是怎么做到的,Max和Pro可能有些微小的差异。百度是有自己方案的选择,也是一直在布局,1.5版本马上就会推出,2.0版本会大幅度升级,现在还没有完全做到。
媒体记者:除了极越比较特殊,是不是以Max和Pro为主?
王亮:大家可以看到现在技术日新月异,算力也是往上走的,要是定义不好的话确实有点麻烦。现在产品在市场上已经不是最领先了,如果不是要打10万以下的车型可能根本没有什么机会,就是在有竞争力的情况下做到高标准高要求。可以把今天发布的X计划理解成一个平台项目机制,现在我们已经有两种Design,马上就可以用,因为已经通过验证。
媒体记者:之前我注意到极越拿掉了激光雷达,但纯视觉的成本并不一定降下去,因为用纯视觉训练算法需要更大的算力,现在是激光雷达更自主了,厂商打算往千元机的时代下探,训练算法的算力底座硬件并不容易获得,训练算法的成本会不会跟激光雷达的成本打平?Apollo实现利润,纯视觉算法带来的成本怎么转移?
王亮:确实不能忽视冰山下面的研发投入。因为要让更多用户选择车型的时候可以以更低的成本享受高阶智驾带来好的体验和价值,客户也是比较明确,需要分摊研发成本。Total来看,技术含量其实更高,但是对用户很友好,对研发也有很大的成本。但不是什么人都能做,百度和特斯拉是可以的,华为也是有机会的。
媒体记者:百度现在怎么看待极越?赋能是直接提供极越零部件还是像问界那样,门店也在卖,宣传也会提供更多的流量,阿维塔可能就少一点,只是提供零部件解决方案。
尚国斌:因为百度非常大,我们几个人是提供相应的软件和硬件,因为我们就是干这个的。
王亮:总体来说,我们专注在智能化解决方案上,帮助车企打造更智能的汽车,我们认为是做“技术合伙人”。
媒体记者:纯视觉冰山下的成本更多的是固定成本,激光雷达是边际成本,有了固定成本以后就要把销量做得很大,压缩边际成本,让整体更加划算,有没有什么计划扩大智驾方案和车型的销量?
王亮:我们第一步就是推出新的产品,就像今天我说的Max和Pro。在极越上的Max,给到用户追求极致的智驾体验。但这样的车型不是满大街都是。其实Pro就足够部分客户使用了。这就像对驾驶有极高追求的人可以买宝马M3,但要是不开快车,购买宝马3也不错。
尚国斌:不管是Pro、Max还是百度地图V20。市场上风云变幻,有些事情是有效的,有些事情是无效的,这是我们过去几年的感受。多数都是无效的,因为客户的某个需求大家做了很多事情,不管是低成本、定制化还是精准研发都有投入很多,但从没有一个人赚到钱,大家不管怎么样都在亏钱。过去几年我们沉下心来思考,用户到底需要一个什么方案?我们的想法就是Vision Takes All,选择了纯视觉,也证明了纯视觉要比加上激光雷达的方案更好,成本也很低。百度地图也是一样,过去的方式要是不OK,我们沉下心来去做智能汽车真正需要的,作为一个好的用户体验,也是一个好的商业模式。我们一定要坚持用我们的方式选择客户,为什么关注用户的使用率?因为好的地图,好的智能驾驶,应该是大家用了就离不开,车上的地图要是像手机地图一样离不开,那就是健康的汽车行业的真正走向。请大家拭目以待。
主持人:谢谢三位领导,也谢谢所有的媒体老师,我们的专访就到这里。