“CVPR的注册队伍现在在大厅里来回绕了2.5圈。如果你还没到,可以睡个懒觉——等待时间至少45分钟。”
6月14日,全球计算机视觉顶会CVPR 2025在美国纳什维尔落下帷幕的前一天,社交媒体上仍有人在“抱怨”着入场的长队,而这只是今年大会火爆程度的一个缩影。
整座城市都因上万名 AI 研究者的涌入改变了节奏:机场里,背着电脑包、戴着参会证的人随处可见;市中心的酒店几乎全满;会场走廊里,抱着电脑席地工作的研究者、匆匆穿梭于各个分会场的人群、永远排成长龙的咖啡区,共同构成了这场 AI 盛会最典型的风景。
论文海报展示区人头攒动 | 图源:IEEE ComputerSociety推特
今年 CVPR 的竞争异常激烈。官方数据显示,大会共收到创纪录的 13,008 篇论文投稿,最终录取率则是历届新低,仅为 22.1%。能获得口头报告(Oral)机会的更是凤毛麟角,只有 96 篇,占比约 3.3%。
在海量的论文和讨论中,两大技术风向标尤为明确。其一,3D视觉正迎来爆发前夜,成为高质量研究成果和demo展示最密集的领域。本届的最佳论文VGGT,就是一个能高效地从2D图片中重建3D信息的端到端方案,一作王建元是华人研究员。其二,“世界模型”一词无处不在,频繁出现在各种论文、海报和研讨会中,成为全场热议的焦点。另外,包括谢赛宁、苏昊、郑奇立在内的多位华人学者亦获得多项奖项与提名,中国研究员的活跃度和影响力持续提升。
与此同时,一个更宏观的趋势是:CVPR的学术界与产业界边界正在快速模糊。会场随处可见Meta、Google、NVIDIA的logo,大量参会者佩戴企业工牌,“从论文到产品”成为热门议题。一位连续参会者告诉我们,今年的CVPR更像是一场技术和产业界紧密结合的大集市,一个全球视野下技术人才、成果、场景三位一体的竞速场。
而就在“前沿技术趋势”、“产业深度融合”和“华人力量崛起”这三大焦点的交汇处,一个来自中国的身影显得尤为特别。
在今年CVPR自动驾驶分论坛(WAD)上,小鹏世界基座模型负责人刘先明发表了题为《Scaling up Autonomous Driving via Large Foundation Models》的主题演讲。与众多“论文参会型”企业不同,小鹏汽车是作为唯一受邀的中国车企,带着在工业领域的重磅实践经验登场。当其他参会者分享还在探讨“如何将研究成果应用于产业”时,他们的主题恰恰相反:如何用产业的真实数据和研发经验,来推动基础科研的边界。
刘先明在CVPR 2025 WAD分论坛。| 图源:硅星人
讲台上,刘先明的开场白简单直接:
“我大概是今天唯一一个来自大规模量产汽车公司的分享者。”
这番话点明了演讲的独特视角:接下来的内容,将来自一个每天处理真实道路、真实用户和海量量产车数据的研发团队。在场的AI学者们将听到的,不再是纯粹的理论推演,而是一套在产业一线被反复捶打和验证过的解题思路。
这是小鹏自今年 4 月发布 720 亿参数的“世界基座模型”以来,首次在国际学术顶会上完整披露其自动驾驶研发进展。不仅带来了工业界首次对“扩展法则”(Scaling Law)在自动驾驶领域的系统性验证,结合“云端基座模型 + 强化学习”的方法论,还公开了已被 DeepSeek 验证的“知识蒸馏”路径,将 VLA(Visual-Language-Action)模型高效部署在自研芯片上的最新实践。
一场由“工业界反哺学术界”的大型案例分享,就此展开。
软件3.0:先造好“驾驶大脑”,再考虑怎么上车
在刘先明看来,自动驾驶软件正在经历一场范式革命。从十年前靠C++ 规则堆砌的“软件 1.0”, 到引入模型来逐步替代软件、渐渐发展到“模型即软件”的“软件 2.0”,再到如今小鹏全面投入的“软件 3.0”阶段,核心理念已经发生了根本性转变,“软件3.0”时代的最大特点是用模型生产模型。
在小鹏汽车的实践中,就是先“不计成本”地把最聪明、最强大的“驾驶大脑”在云端训练出来,暂时不用考虑车上那块小芯片的计算能力。等到云端模型能力足够强大,再通过技术手段将其蒸馏成适合车端运行的版本。目前,小鹏训练的这个“完全体”基座模型,参数规模高达720亿(72B),是现在行业主流VLA模型的35倍以上。
模型背后,是一座真正意义上的“云端模型工厂:它拥有算力达10EFLOPS、上万张GPU卡的智算集群,并采用专门优化的数据传输架构,将训练速度提升了5倍。更重要的是它的“数据引擎”——一个庞大且持续运转的数据飞轮。
相比很多公司要依赖有限的公开数据集或单次采集任务,小鹏的一大优势在于,其数据采集能力“不受限制”,直接来自大规模量产车队。小鹏汽车的基座模型累计处理了超过5000万段30秒视频片段,总计超40万小时训练数据,平均每天上传数据达600TB,这些数据全都来自真实世界、真实场景。这些数据采集由超过100种触发机制驱动,确保了数据的多样性和价值。
图源:小鹏汽车
更重要的是,这些数据并非“采了就用”,而是通过一套 “内外双循环系统” 持续驱动模型进化。
刘先明在演讲中介绍,“我们的基座模型不是静态的,它在持续学习、循环进化(Continued Online Learning)。可以把模型的迭代过程分成内、外两个循环,内循环是指包含预训练、后训练(包括监督精调SFT和强化学习RL)和蒸馏部署的模型训练过程;外循环,是指模型在车端部署之后,持续获取新的驾驶数据和用户反馈,数据回流云端,继续用于云端基模的训练。”
正是这种“数据飞轮”机制,让小鹏的大模型训练始终处在动态进化状态,也为攻克自动驾驶行业长期面临的“长尾场景”难题提供了充足的数据保障。