显卡销冠
他又出手了
刚刚击破摩尔定律的英伟达,却要撞上 scaling laws 的墙?
相当一部分评论家和分析师是这么认为的。即便你不同意,也不能怪他们,毕竟在英特尔的身上,大家刚刚目睹了摩尔定律似乎「失效」了。
在最近两次财报电话会议(25Q3、Q4)中,每次都有不止一位分析师向英伟达 C-level 抛出同一类问题:神经网络的 scaling law 是否不再起到作用了?
他们真正想问的是:英伟达还能否续写连续两个财年的疯狂增长?
这就是在业界甚嚣尘上的 scaling law 撞墙猜测。简而言之,机器学习的 scaling law 的指的是随着模型大小(参数量)、数据集、训练成本这三大要素的提升,大模型的性能也会有所提升(具体细节不展开)。
而许多分析师看到 DeepSeek 震惊世界的成果之后,得出一种新的猜测,认为进一步训练天量参数和超大数据集的大语言模型的意义没那么大了,蒸馏现有超大模型的性能也很不错,完全事半功倍。
而放在英伟达的语境下,考虑到它是 GPT 技术催生和领导的大语言模型爆发的最大受益者,最近连续几个季度的收入又过分严重依赖数据中心;现在大模型的蒸馏新玩法出现,似乎不再需要那么多 Hopper、Blackwell,以及英伟达早已画好路线图的新架构显卡,进而直接导致英伟达图形计算方案产品的市场需求从高位滑落,最近两个财年的疯长神话不再续写。
CEO 黄仁勋理解这种「恐慌」,毕竟公司股票在过去一年里给太多人赚了太多钱。但他不理解人们为什么会有 scaling law 不再适用的想法。
在和软银创始人孙正义的谈话中,黄仁勋提到,只要投入足够的计算资源,采用更复杂的算法,AI 的智能水平还能够继续提升。上一财务季度的电话会议里,黄仁勋又提出了一个关于 scaling law 的新思考框架,具体来说有三个部分:预训练 scaling、后训练 scaling、推理 (包括模型推理 inference 和思维推理 reason)scaling。
而在今天的英伟达 Geforce 技术大会(GTC)上,他进一步阐释了这个新的 scaling law 框架:
通过 DeepSeek,人们用上了能够推理 (reason),具有思维链的 AI。这和 ChatGPT 有本质的区别。ChatGPT 回答很多复杂问题的时候答案都是错的,因为答案是一次性生成的,token 是一个接一个吐出来的。
而现在 AI 能够推理,每个 token 都返回到上一步重新处理,一次又一次的重复,最终形成一个思维链 (chain of thought)」
「我们不只是 token 吞吐量提升了 10 倍,同时也需要 10 倍更快的计算(注:中和更多 token 消耗的时间)。最后的结果是,我们需要 10 x 10 = 100 倍更多的算力!」
事实上在黄仁勋看来,任何人如果理解计算机科学领域的最基本悖论——延迟和吞吐量——就不会说出 scaling law 不再适用那些话。
在基于强化学习,具有思维链 (chain of thoughts) 能力的大模型的推理过程中,每个新 token 都会在产生之后不断地被送回上一步重新处理,用黄仁勋自己的比喻叫做「token 的自我怀疑」。他说,「如果你想要聪明的 AI,你就需要高效率地生成 token。如果你花了太长的时间去生成这些 token,你的客户最后就不用你了。所以你的 token 速度很重要。」
为了证明自己的观点,黄仁勋拿出传统大语言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B(37B 激活),让它们回答同一个复杂问题。
前者生成了 439 个 token,但给出的答案根本没法用,黄仁勋说「400 多个 token 白白浪费了」。后者打开了标志性的「深度思考」模式,结果生成了高达 8559 个 token,得到的答案令人满意。
但和所用算力相比,答案满意与否已经没那么重要了:
具有思维链的 R1 推理模型的 token 吞吐量是传统模型 20 倍,现场演示的用时也比传统模型长了两倍,即便如此都要用到 150 倍的算力。如果换做消费级使用场景下,想要在足够快、能留住用户的时间窗口内,输出经过深思熟虑的可靠结果,需要的算力只会成倍增加。
怎么训练的模型也不太重要了。模型想要在真正的商业和消费应用中高效地进行推理/思考,同样需要大量的算力。早在之前的财报会上黄仁勋就说过,人们目前看得见和用得上的消费级产品,比如搜索、生成、推荐功能,还只是大模型能力的九牛一毛。未来的推理/思考型模型将要消耗掉的算力,将令人难以置信。
他不得不在自己的主场 GTC 上,完整展现自己对于这件事的「思维链」,甚至在台上疯狂做数学题,算 token 秒速、单机架功耗,再把它们合到一起算出每兆瓦秒 token 吞吐性能,推导出新架构产品能让客户多赚多少钱。发布会两个多小时的观感,70% 说服分析师,30% 面向开发者和企业伙伴。
黄仁勋的技术前瞻性的确独一无二,特别是带领公司研发 CUDA 技术走上 GPGPU 道路,使得基于图形计算架构的通用加速计算成为可能。而我们也看到了早年的这些决策,在最近两年里以数据中心业务的形态贡献了英伟达高达 90% 的收入,帮助公司实现高达 56% 的净利润。
但归根结底,黄仁勋是图形加速计算布道者,更是显卡销冠。他需要继续不遗余力地抬高英伟达驱动的 GPU 数据中心——2025 年已经换了一个新名字,叫做 AI 工厂——在企业客户心目中的价值认知和必要性心智,才能续写英伟达的股价神话。
本届 GTC 上发布了很多核弹级的新 AI 加速计算方案,软硬兼施,包括最新 Blackwell Ultra 架构 + NVLink72 互联技术的服务器机架产品和超算集群产品、Dynamo 分布式推理大模型环境部署软件、AI 超算单机 DGX Spark/Station、数字-光纤调制解调模组等、Groot N1 人形机器人基础模型等。
这些产品和技术的意义很大,对于不同规模场景的企业建设自己的 AI 工厂,训练自己垂直领域的独家超大模型和机器人,能带来很可观的效能提升,最终带来更高的收入。
但现场黄仁勋反复采用的一种叙事逻辑,有些耐人寻味:
英伟达在大量的企业级 AI 大模型训练和部署展示中,一而再、再而三地强调大量预先模拟和测试的必要性。
具体来说,未来的千行百业在应用 AI 技术的过程中,需要做大量的、反复的模拟和测试工作。比如一个在工厂流水线工作的机器人,在真人教会他如何摆弄工具之前或者同时,他可以在大模型里跑成百上千次模拟,包括动作模拟、物理引擎模拟,甚至 GPU 虚拟出的不同环境场景下的重复模拟。
而这些模拟测试的内容,毫无意外,也是在英伟达图形计算方案驱动的服务器里进行的。英伟达的 Omniverse 机器人 AI 操作系统和 Cosmos 真实世界基础大模型,正是专为这些模拟测试背后的大模型训练和部署工作而生的。
也就是说,在英伟达看来,不止训练大模型,部署和推理大模型,在现实世界的千行百业应用大模型之前,还要进行大量的训练-推理-再训练-再推理……不断循环往复的强化学习过程。每多强化一点,需要的算力都呈指数级提升。
黄仁勋打的大概就是这个算盘:从 Hopper 架构升级到 Blackwell,token 吞吐效率已经几何提升,转换到客户的每 token 收入翻了 40 倍。而如果再升级到 2027 年的 Rubin 架构,甚至 2028 年的 Feynman 架构,想都不敢想。
The more you buy, the more you save?
The more you buy, the more you(we) make!
好在黄仁勋还算有良心,直接把这些未来 2-3 年内的新架构的命名、技术细节、预估提升水平都提前告诉好大家了。这样客户在筹划修建自己的 AI 数据中心的时候,可以充分考虑预算、需要性能、工期等客观因素,来准确地选购自己需要的英伟达显卡。
毋庸置疑的是,英伟达需要持续炒热 GPU 架构革新的意义,加快新架构发布的节奏,甚至在几乎一己之力打破了英特尔的摩尔定律之后,又创造了自己每年一升级的 tick-tock 规则。
只有客户的心智被规训成「永远认为自己需要更好的显卡」,就像每年总忍不住换新 iPhone 那样,英伟达才能有希望保持收入继续增长,即便最近两年的增速已经如此疯狂。
就像大会开场前的暖场对谈里所说的:在任何经济里,卖水的永远会成功。
最后,有一个疑惑萦绕在脑海里:
顺着英伟达的逻辑,总有一天,而且应该不会太久,这个世界上被用于训练和优化所有大模型的数据,全都来自于别的大模型甚至这个大模型自己。