大模型领域前一阵有个刷屏新闻,现代知名音乐制作人Rick Rubin和Anthropic合作,对《道德经》做了个二创,通过改编老子的原文,写了部《编码之道》(The Way of Code),对AI编码这种新开发方式做了一次哲学诠释,受到社区的热烈追捧。 其实技术的发展往往是这样,技术自身固然重要,但其背后的理念可能更重要,因为它才能决定技术发展究竟要向何处去。 不久前,我拜访了位于深圳的卓驭科技,一家“又新又旧”的公司(稍后会解释),并和卓驭科技CEO沈劭拢⒗镌浦悄芗殴苍剖乱挡扛弊懿谩AI汽车行业总经理李强一起做了一场深度的播客访谈。 在剪辑回放这期播客视频时,当我看到沈劭陆馐汀拔裁窗阎羌菹低常釉窗偻虼氲墓嬖蚵呒某啥说蕉寺呒笔保夷院@锿蝗幻俺隼献拥囊痪浠埃何找妫廊账稹 老子原本表达的意思是:当我们刚开始学习某个领域时,总是先去掌握更多的知识、技巧和规则,就像往背包里不断装东西,这就是“为学日益”;但当我们真正精通这个领域时,我们开始明白什么是本质的、什么是多余的,开始学会舍弃和简化,最终抓住事物的核心规律,这是“为道日损”。 至于为什么我会联想到这句话?我们就得要理解卓驭这次技术路线转换蕴藏的深度哲学,从卓驭科技的发展原点说起了。接下来,我们要讲的是一个基因传承和创新的企业故事。 另一种L4:天空到地面的技术传承 我们刚才讲卓驭科技又新又旧。卓驭之新,在于它在法律意义上是一个很年轻的公司,2023年才成立;卓驭之旧,是说它的技术、业务本身并不年轻,极有沉淀。从无人机产品出发,到投身智能驾驶技术,卓驭的相关工作早在2016年开始了。 无人机与汽车智驾,虽然一个在天上,一个在地上,但有天然的技术关联,它们都可以用L1到L4这样的指标体系,描述智能驾驶的程度。而用沈劭碌幕八担奕嘶涫翟缇鸵丫搅L4了,原因很简单,“因为天上没有人来人往”。 所以在2016年,沈劭戮龆ê屯哦右黄鹛粽健盎魅搜У幕使凇薄悄芗菔弧H欢懒⒃俗鞯牡谝徊剑吭ο人伎嫉幕共唤鍪羌际跷侍猓巧桃的J轿侍狻 沈劭滤担羁计涫祷撕艹な奔淙ハ氲降自趺囱攀且桓隹尚械纳桃的J剑苋靡滴窕钕氯ィ⒎⒄棺炒蟆K匾涞溃哦酉牍纳桃的J桨Robotaxi、低速物流车、干线物流等等,方方面面都有。虽然模式想过很多,但 “造车”这个选项很早就排除掉了,“想了半天就没想到怎么能把车造好”。 不过,不造车只是不造整车硬件,不代表不做智驾系统的硬件。由于团队天然具备硬件基因,所以沈劭滤担骸叭砑惴ㄖ猓颐亲鲇布ù衅鳎乇鹗嵌杂谌碛惨惶寤际跽坏男呕刑烊挥攀啤薄U庵旨际醯自套钪站龆俗吭Φ氖谐《ㄎ唬鹤Tier 1(一级供应商)。“一级供应商的核心能力不是某一个,真正重要的是兜底的能力,也就是提供'交钥匙'方案的能力。” 可是,他随后也花了个很长的篇幅解释,能“交钥匙”兜底,只代表能力出众,却不代表卓驭只提供这一种交付方式,“不然太霸道了,会失去很多合作机会”。 实际上,卓驭和主机厂的合作交付可谓多种多样,除了交钥匙,还有:硬件+软件集成、软硬件产品供应、纯软件方案,甚至是IP授权和主机厂自研赋能。沈劭氯衔绾谓桓镀涫挡恢匾钪匾氖谴蠹业睦婀餐阋恢拢喊殉德艉谩J旨ち俗吭际醭恋砗鸵滴衤呒某晒Γ耗壳白吭σ丫⒑献鞯目突в9家,合作的汽车品牌16个。 对于这些成就,在访谈中,李强也给出了阿里云的视角:在数字化、智能化的时代,一家企业的发展,一定会反映在算力消耗上。算力消耗是企业发展的晴雨表,“在卓驭的这张晴雨表上,我们很明显能够看到卓驭的业务进步”。 一次“戛然而止”,一种“范式跃迁” 我们先来讨论一下卓驭科技的技术变革。我认为非常值得单拿一个章节详解。因为从中大家可以体会到,我为什么会在卓驭科技的技术哲学上感受到老子的“为学日益”、“为道日损”。 技术变革往往遵循托马斯・库恩提出的“科学革命”理论:在常规科学阶段,技术按既定轨道渐进式发展;当累积的问题达到临界点时,就会发生“范式革命”,整个技术体系被重新定义。 如果能在不同技术范式取得成功,就是我们经常听到的字眼“穿越周期”。这两年,卓驭就穿越了一次:从代码规则切换到了模型驱动的端到端。可以说,从2016年到2023年的七年,卓驭的智驾技术走过了基于规则技术路线的完整周期。 最开始的规则路线,是一个典型的复杂化过程。当时工程师们相信,通过不断添加规则,就能覆盖现实世界的所有可能性,实现汽车的智能驾驶。当然,这也不仅是卓驭一个团队秉承的技术范式,而是业界一度的普遍选择。 “从16年底一直到23年,很明显规则是越写越多的,特别是到后面开始做基于规则的无图城市领航的时候,那时候基本上卓驭的规则代码就是登峰造极的境界了”, 沈劭绿傅秸獾氖焙颍钋柯砩衔蚀牍婺S卸啻螅看鸢甘牵喊偻蛐屑侗穑怪皇蔷霾吖婊话ǜ兄 然而,现实给出了代码量不一致的反馈:城市里面的接管率怎么都降不下来了。 与此同时,团队内部一直在并行探索端到端技术。而当两条技术路线的性能对比出炉时,结果是震撼性的:七年积累的百万行规则代码,在性能上却被一个初期阶段的端到端系统数量级超越。 面对这种巨大差距,沈劭伦隽艘桓龉系木龆ǎ骸坝眉虻セ卮鸬幕叭プ芙峋褪侵苯臃牌恕保灼偻蛐泄嬖虼耄孀蚨说蕉恕J莶换崞耍俺乔丛映【暗慕庸苈手苯咏盗10倍”。但数据背后,还有更深层的认知变化。 沈劭禄匾涞溃羁即蠹叶杂谀P颓故怯泻芏嘁晌实模艽锏绞裁窗踩阅芰σ灿胁蝗范ㄐ浴5罄矗孀庞镅源竽P捅硐殖隼吹闹悄苡肯郑猛哦尤沸牛P捅旧砜赡鼙热斯け嘈吹墓嬖蚋咏腔鄣谋局省 当然,切换技术体系,不代表工程师的工作不重要了,只是技术逻辑发生了根本性的转换:过去是“say yes”――告诉机器应该怎么做,什么是对的;现在变成了“say no”――让机器自己判断,工程师只需要告诉它什么是不该做的。 沈劭陆馐停骸按邮У慕嵌壬侠此担绻say yes,它本质上来说是一个正向的去解非常复杂的非线性优化问题,要找到一个解是很难的。say no就简单多了,只要在空间里面验证一下就好了。” 端到端:拟人化智能的突破 除了接管率的间接数字表现,这种技术切换给驾乘体验带来的直观效果也立竿见影。沈劭旅枋隽艘桓錾某【埃杭偕璩盗窘胍桓鲎≌繁咄A撕芏喑担低镒撸突岢鱿帧肮硖酵贰保匆桓鋈送蝗淮勇繁叱盗菊诘驳拿で蝗怀宄隼矗┑那榭觥 如果用写规则应对这种情况,就需要不断优化车辆对突发状况的响应速度,这在数学上容易计算但实现起来很难,“会很容易达到物理极限”。 但用了端到端方法之后,车辆系统的突发响应速度并没有加快,但你会发现,一旦进了这些场景,车就不肯加速了。因为此时,车辆表现出了近似人类的预判能力:不肯加速,就代表智驾系统懂得了这个场景是有危险的,需要刹车慢给“油”。 更有趣的是AEB(自动紧急制动)测试的变化:“切换到端到端之后,我们很难测AEB,因为车会绕开障碍物,而不是事到临头刹车。相比起来,人类司机开车反而还比较容易测AEB。” 这种变化的本质,是因为机器学会了人类司机的直觉,让驾驶变得拟人。沈劭伦⒁獾剑芏嗍焙蛩降奈O战庸埽⒎浅鱿衷诰砸庖迳系纳渤挡患埃敲挥泻推渌煌ú斡胝摺⒔煌ㄗ纯鲂纬梢桓瞿酢 没有这个直觉,从人类司机看来,驾驶系统就还是个机器,而不是“老司机”。而我的“为学日益”到“为道日损”的感受,也就是从这些话语中感悟而来了。 一开始,工程师们勤奋地添加规则代码,试图用百万行程序来描述汽车在复杂世界中应该如何行驶。但当端到端技术出现时,他们发现真正的突破是减法:让机器自己学会判断,而不是被无数规则束缚。 模型有模型的问题 不过,硬币总有两面。技术路线的转换,有惊艳的效果,也有心惊的问题,最重要的就是数据处理。 这并不意外,在算力算法数据的AI三要素,“数据墙”的制约,是人们说得最多的话题。不过,从外界来看,数据问题往往会被归结为规模问题,也就是数据量够不够大的问题。 但从卓驭看来,并非如此。 沈劭陆馐停绻屑甘蛄境翟诼飞吓埽刻斓氖莨婺#馐谴娲⒑痛涞姆延茫蓟岷芨摺8慰觯蠖嗍粘P惺皇菟枋龅淖纯觯涫刀家丫怀橄蟆⒛扇肽P偷牟问校钔馐占俣嗤嗖⒚挥杏谩 这就可以归纳出数据时代的一个重要认知:数据的价值在于数量但也在于质量。所以,我们如何能把更有价值的数据给挖掘出来? 最开始的做法是人工标注:就是所谓的有多少人工,就有多少智能。但随着数据量增长,卓驭开始构建更智能的数据处理系统:利用车辆本身的行为特征作为捕捉更有价值数据的信号,因为驾驶员的驾驶行为、接管行为,都可以作为启动数据传输或者启动关键场景的信号。换句话说,只有某些“有价值的数据”行为出现了,系统才去记录数据。他们甚至在车上部署了专门的数据挖掘模型。一个比较小的VLM(视觉语言模型),它不负责驾驶,但专门负责去发掘什么样的数据是更有意义的。 算力晴雨表:见证技术范式的跃迁 能从另一个角度观察这场技术范式变革,和卓驭科技算力变迁的,就是阿里云团队了。 作为先进的AI基础设施供应商,阿里云从卓驭的AI基础设施消耗中看到了清晰的汽车产业的智能脉络。我们可以将其称之为“算力晴雨表”。 卓驭和阿里云的合作,始于2022年;具体落地场景可分为智驾模型产品和公司业务系统两个层面。 在智驾模型产品方案层面,卓驭是基于阿里云智算服务 PAI-灵骏训练“分段式的小模型”起步的。 2023年,独立运营后的卓驭,自然会对公司业务系统提出新要求。此时,公司做出了一个关键决策:将内部业务系统“应上尽上”,全部迁移到云端,团队则选择专注核心能力,将其他都交给专业的服务商,决策的成果不负期待。 通过阿里云的数据湖仓平台StarRocks,卓驭实现了对千亿级视频每一帧的存储标注计算;MEMS、MOM、Lims等工厂智造、供应链等核心系统也都相继迁移上云,节约了大量研发和运维的基础人力投入。这时在阿里云的“晴雨表”上,卓驭的通用计算消耗还是大于智能算力消耗的。 随着卓驭从规则走向端到端,虽然接管率在下降,代码量在下降,但当驾驶的决策由模型得出,对基础设施的要求反而提高了。两个字:一个“量”,一个“质”。谈“量”,是智能算力的需求,很快超过了通用计算消耗。说“质”,则体现在端到端模式对基础设施提出的全新要求。如果我们把过去的规则驱动描述为“单线程”工作,那么端到端训练就像是“多线程并发”。而成千上万的GPU同时协作时,任何一个节点出问题,整个训练就可能前功尽弃。 显然,训练中断是工程师们最头疼的问题之一,它意味着多日的计算量付诸东流。智算服务PAI-灵骏针对这些挑战做了系统性优化。举个例子:如果某个训练节点出现故障,首先系统能自动隔离问题节点并快速恢复训练;其次,3.2Tbps的RDMA网络带宽则让海量的模型参数能够在节点间快速流转;最后,智能调度系统则像一个精明的“资源管家”,确保每一份算力都用在刀刃上。 在推理端,情况同样复杂。车载芯片的算力限制要求在保证精度的前提下让模型跑得更快、更省资源。为此,阿里云人工智能平台PAI提供的量化工具链能够在尽可能少损失精度的情况下,大幅提升模型的推理效率,这就直接带动了车辆的响应速度和能耗表现。 虽然AI算力需求在增加,但是和算力优化一点不矛盾,反而相辅相成。我最近和阿里云不同团队交流时,确实体会到了阿里云的一种算力价值观:一方面阿里云关注客户算力需求增长;但另外一方面,他们实际上更在意客户算力的用法。 如果某个客户能把算力用得很极致,把每一分算力都用在刀刃上,反而会让阿里云多关注,去推动让这种极致走得更远。卓驭就属于这种情况。我理解这个价值的逻辑是,能把技术用漂亮,业务也会做漂亮。能把先进技术用到极致,同样业务也会做得很成功。 说到价值观,我也问卓驭科技和阿里云双方,为何能够一拍即合紧密配合,沈劭潞屠钋康幕卮鹗且恢碌模荷涛裆媳旨虻ジ咝У墓ぷ骼砟睿低ㄍ该鳎患际跎霞岢殖て谥饕澹非蟮撞懵呒 因为回顾过往,阿里云是最早深耕智驾领域客户的云服务商,在不断的业务迭代过程中,阿里云从产品能力、框架优化能力、算子库等多技术板块针对智驾场景做了非常多的优化落地。而正是这样的高效开发效率,促成了双方的相互成就。同时,卓驭在业务高速发展过程中也带动了阿里云产品和技术的持续领先,这是真正意义上的携手共进,这就是三观一致、互相成就。 有意思的是,卓驭这个先行者的AI算力晴雨表,也是整个中国汽车产业智能化晴雨表的缩影。李强提供的一组数字佐证了这一点。在他所服务的阿里云AI汽车行业线,在今年3月份的某一天,AI算力的收入已经超过了CPU通用算力。到5月底AI算力占比已经接近56%。 软硬一体化,舱驾一体化,背后是一种技术美学 在卓驭的官方资料中,软硬“一体化”是经常出现的高频词。我自然也在对话中,希望对此作一番探究。 沈劭赂嫠呶遥獗澈筇逑值睦砟钍蔷植坑呕拖低秤呕那稹K靡桓觥八可阆裢贰钡睦幼隽司咛宀觥 卓驭现在所有的智能辅助驾驶方案都是用双目的,沈劭陆馐停赫飧鲅≡窨此萍虻ィ涫涤猩畈愕南低承钥剂俊K坑辛⑻迨泳酰腿搜劾嗨疲饩腿盟烊痪弑肝锢硖匦裕贸な侗鸷投惚苈访娴恼习铩 更重要的是,这种选择的价值不仅在技术层面,更体现在成本控制的系统优化层面。这可能有点反直觉,怎么增加了“一目”,反而成本更可控。道理在于功能互换。 智能驾驶系统有要解决“传感”、“算力”、“数据”、“算法”四座大山的说法。它们遵循木桶理论,每一个都不能有明显的短板,但它又是一个奇怪的木桶。一块木板更长,就能够让另一块木板无需太长。也就是说,因为用双目硬件能实现的性能,如果改换用算力实现,成本会非常高。 换言之,有了双目摄像头,模型的参数规模就可以缩小,成本就可以大幅度降低。显然,这里对应的,不仅是卓驭的交付成本,更是主机厂客户的车辆成本。 因此,沈劭滤懔艘槐收耍核坎恢皇亲霸诔瞪系挠布那钦鎏逑翟俗髌鹄吹某杀尽I踔潦鹿氐降滓荒晷枰5个亿来做模型训练,还是需要用50个亿来做模型训练。 这也体现了卓驭对"软硬一体"的深层理解:前后端的东西是会互相影响的,它们是需要一起权衡、一起优化的东西,也就是“一体化”。而这种技术理念,也体现在智能舱驾方案中。卓驭原来只做驾驶系统,但现在也将座舱系统纳入业务范围,玩法是“驾舱一体化”。项目正在有序进行中,预估10月份就会量产。 所谓舱驾一体,顾名思义,就是将座舱和智驾功能集成在一个平台上。我自然要问沈劭拢吭ξ裁凑饷丛谝狻耙惶寤鄙杓疲 他给了我一个“意料之外、情理之中”的答案:“某种程度上这是一种技术美学”, “所有漂亮的工程方案,它的软件硬件算力各种资源,摆放分布,应该让人看到就觉得是刚刚好的,不多也不少。而要做到这种刚刚好,只有靠一体化设计才能做到(听到这句话的时候,我突然想到了乔布斯时期的苹果)。 这种技术美学,自然也能产生经济效益。沈劭滤担拔颐堑淖绽锘崤VLM模型做场景识别”,但如果舱驾分离,就需要在两个位置部署类似功能,消耗1.7倍的算力,如果合起来设计,就会“不多也不少”、“算力刚刚好”。就VLM本身的能力,目前阿里通义系列大模型坚定开源路线,持续为各行业客户提供开源VL大模型的能力,Qwen VL系列和全模态大模型目前也是各个车企和座舱方案供应商的首要选择。 更直观的体现是360全景功能的实现。在传统架构中,环视相机接到驾驶控制器,处理完成后再通过车载以太网传输到座舱显示,这种设计既消耗算力,又影响体验――如果驾驶控制器没启动完,用户就会看到黑屏。 但用一体化设计就简单了。“共享内存而已,谁想用谁用”。这种“刚刚好”的一体化技术理念,其实也是一种“为道日损”的工程哲学――不是功能的简单堆叠做加法,而是资源的优雅整合做减法。 端到端、VLA、世界模型 在我和李强、沈劭碌牟タ头锰钢校乙裁环殴幔退翘傅搅撕芏辔蠢葱砸樘狻 端到端技术显然并非是智驾的终局,新的范式还在不断涌现,比如:VLA、(生成式)世界模型等等,只有端到端,智驾系统对复杂的场景的理解能力会不足,沈劭赂嫠呶宜乃伎迹绯盗咀笞螅降捉髀坊故歉罚柯房谟泻枚喔龀档溃腥醭档溃降滋裟奶酰空庑┚霾吆苊飨圆皇怯谩靶∧韵低场蹦芙饩龅模夹枰谩按竽韵低场苯槿搿 因为端到端更像是人类的小脑反应,而复杂的路线选择需要大脑思考。这种认知推动着技术向更高层次进化,也促使卓驭深挖VLA(Vision-Language-Action)。这里我们稍微解释一下VLA。VLA模型是基础模型的一种,它允许机器通过整合视觉环境信息和语言指令来执行复杂任务并生成相应行动。这些模型致力于在单一计算框架内统一感知、自然语言理解和具身行动能力。 具体而言,VLA 智能系统能够协同处理视觉输入,理解自然语言指令,并在动态环境中生成可执行的动作。这标志着一个重要的转变――从过去将视觉、语言和行动视为分离的领域,到如今将它们整合为一个有机的整体。 有了VLA建立语义级别的场景理解能力,就能比较轻松解决主辅路选道的策略问题了。对VLA技术的落地时间,沈劭卤冉侠止郏喝绻冉峡斓幕埃Ω媒衲晗掳肽昃突岢隼础6蟮南胂罂占湓蛟谟谑澜缒P汀 所谓世界模型,是指机器能够根据给定世界的当前状态和一个动作,预测世界在下一个时刻的状态。换句话说,它让AI智能体能够在采取实际行动之前,在自己的“脑海”中进行“想象”和“推演”,预见不同行为可能带来的后果。 沈劭掠靡桓隼永此得魇澜缒P偷哪芰Γ杭偃缜懊娴某档袅烁龈志恚盗镜哪P脱盗肥堇锩婷患舛鳎匀痪秃芪O铡5辛耸澜缒P停低尘涂梢曰谖锢碓硕龇治觯勒舛骶圆荒芘觥 这就是世界模型与当前技术的本质区别:不是基于既有数据的模仿学习,而是基于对物理世界的理推演决。但对这个未来路线,沈劭乱埠芴钩希骸笆祷笆邓担趺凑嬲龀隼矗颐窍衷诨共磺宄D壳埃馐且桓鲂碓浮薄 从端到端,到VLA,再到世界模型,这个技术演进轨迹很清楚,就是返璞归真。所以,我想其实也恰如老子的哲思:每一次架构变化,都是“为道日损”的简化,都为下一轮探索奠定了基础。 不过,虽然世界模型还是许愿阶段,L3级别的智能驾驶并不是。 对于L3的时间表,沈劭卤硎尽 L3的最终落地会是一个后验的事情。与其一开始就追求完美的L3系统,不如先让L2++系统在实际道路上积累足够的安全数据。比如:什么时候车辆在1万个小时的智驾运行中,事故不大于一次的时候,就可以自然而然地被认定为是L3标准的系统。” 在绝大多数时间,我和两位专家谈的是技术,但到后来,话题自然而然地转移到企业使命上。 卓驭的公司愿景是“为所有人提供安全轻松的出行体验”,听起来很朴实,但沈劭陆馐停骸罢馄涫凳且桓隹萍计饺ǖ男模踩飧鲎忌笔笨炭烫嵝盐颐亲龅氖且桓龈嗣喙氐亩鳎荒芸嫘Α6崴伞蚴俏颐撬非蟮牟诽逖椤! 每次遇到创业者,我都问时间分配的问题,沈劭掠昧艘桓鐾ㄐ攀跤锩枋鲎约海何蚁衷谑TDMA系统(TDMA是一个通信领域的技术名词,中文叫时分多址,可以实现在同一信道上使用不同的时间段,允许多个用户进行通信。沈老师的“TDMA”比喻自然意味着他要利用所有的时间间隙,应对来自四面八方的任务)。首先,他要确保企业产品技术路线上不走歪,技术修养肯定不能“丢”,其次,“要保证团队在客户交付上有高配合度”。 总之,不在技术和管理之间非此即彼的选择,而是通过时间分配实现整体优化,似乎这也是一种“一体化”哲学啊! 最后收尾时,我问沈劭拢魑AI从业者,你选什么车?他说自从进了智能驾驶这个行业之后,开车就变成了一种工作。第一:车一定是用了自己方案的车,每天开的车都不一样;第二:一边开一边给工程师提Bug。正可谓上车即上班。 李强也讲,“我选车,一是要主流的、智能化的产品;二是如果实力允许,每家客户的车都应该来一台”。 老子《道德经》第一章还有一句很出名的话,“道可道,非常道”,如果道是可以言说的,那么它就不是永恒不变的道。这句话也适合讲智能驾驶,如果驾驶规则是可以一条条讲出来的规则,那就不是智能驾驶的真谛。 沈劭滤凳澜缒P突乖谛碓福俏腋芯跽馐且恢智椤R蛭强刹皇侵辉谛碓傅却乔鬃陨鲜质蹈伞2还腿梦颐怯谜飧龃时泶镆幌缕谛戆桑诖笆澜缒P汀毙碓赋晒Φ哪且惶臁#丛矗褐炼タ萍迹 (责任编辑:郭健东 )
【免责声明】【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com |