Anthropic CEO 最新万字长文:不认为 DeepSeek 本身是对手,美国要加强芯片出口管制

今天凌晨,Anthropic CEO Dario Amodei 在 X 平台发布了一篇万字长文,回应了近期围绕在 DeepSeek 的诸多风波事件。

在这篇博客中,Amodei 表示不认为 DeepSeek 本身是对手,但同时却又喊话美国要加强芯片出口管制。

面对 Amodei 疑似「破防」的行为,X 网友在评论区贴脸输出:

附上原文编译:

几周前,我曾提出应加强美国对华芯片出口管制。如今,中国 AI 公司 DeepSeek 竟然在某些方面以更低成本接近了美国最前沿的 AI 模型。

在这篇文章中,我不会讨论 DeepSeek 是否真的威胁到 Anthropic 等美国 AI 企业(尽管我认为,关于中国 AI 取代美国领导地位的某些说法被夸大了)¹。

相反,我想探讨一个问题:DeepSeek 的技术突破是否削弱了对芯片出口管制的必要性?我的答案是否定的。事实上,我认为这反而更加凸显了出口管制的重要性²。

出口管制的核心目标是确保国家在 AI 发展中保持领先。需要明确的是,管制政策并不是为了回避中美 AI 竞争。

最终,如果美国及其他国家希望在 AI 领域占据主导地位,就必须拥有比中国更先进的模型。但与此同时,我们也不应该在可以避免的情况下,让中国政府获得技术优势。

AI 发展的三大核心动态

在讨论政策问题之前,我想先介绍 AI 系统的三个关键发展动态,这对理解 AI 产业至关重要:

1. 缩放规律(Scaling Laws)

AI 领域的一个核心规律是,随着训练规模的扩大,模型的表现会持续平稳提升。我和我的联合创始人在 OpenAI 工作时,就曾率先记录并验证过这一现象。简单来说,在其他条件相同的情况下,增加训练计算量(compute)会让 AI 在各种认知任务上的表现更好。例如:

价值 100 万美元 的 AI 可能能解决 20% 的关键编程任务

价值 1000 万美元 的 AI 可能能解决 40%

价值 1 亿美元 的 AI 可能能解决 60%

这些差异在实际应用中会带来巨大影响——计算量增加 10 倍,可能意味着 AI 水平从本科生提升到博士生。因此,各家公司都在投入巨额资金训练更强的模型。

2. 计算效率提升(Shifting the Curve)

AI 领域不断涌现出各种大大小小的创新,使得 AI 训练和推理更加高效。这些创新可能涉及模型架构改进(例如对 Transformer 结构的优化)、更高效的计算方式(提升硬件利用率)以及新一代 AI 计算芯片。

这些优化会整体提升 AI 的训练效率,也就是「Shifting the Curve」:

如果某项技术带来 2 倍的计算提升(Compute Multiplier,CM),那么原本需要 1000 万美元 训练出的 40% 代码解决能力,现在只需要 500 万美元;原本 1 亿美元 的 60% 代码解决能力,现在只需要 5000 万美元。

各大 AI 公司不断发现这样的 CM 提升:

小幅优化(约 1.2 倍):常见的微调优化

中等优化(约 2 倍):架构改进或算法优化

大幅优化(约 10 倍):重大技术突破

由于 AI 智能水平的提升价值极高,这种效率提升通常不会降低总训练成本,反而会促使企业投入更多资金,训练更强的模型。许多人误以为 AI 会像传统产品那样「先贵后便宜」,但 AI 并不是一个固定质量的商品——当计算效率提高后,行业不会减少计算消耗,而是更快地追求更强的 AI。

在 2020 年,我的团队发表了一篇论文,指出算法进步带来的计算效率提升速度约为每年 1.68 倍。但目前这一速度可能已经加快到每年 4 倍,并且这一估算还未考虑硬件进步的影响。

3. 推理成本的降低(Inference Cost Reduction)训练效率的提升同样会影响 AI 推理(即模型在运行时的计算成本)。过去几年,我们已经看到 AI 的推理成本持续下降,同时性能不断提升。例如 Claude 3.5 Sonnet(发布于 GPT-4 之后 15 个月),在几乎所有基准测试上都超越了 GPT-4,但其 API 价格仅为 GPT-4 的 1/10。

3、范式转变(Shifting the Paradigm)

AI 训练的扩展方式并非一成不变,有时核心扩展对象会发生变化,或者训练过程中会引入新的扩展方法。

在 2020-2023 年间,AI 训练的主要扩展方向是预训练模型,这些模型主要基于大规模互联网文本数据进行训练,在此基础上进行少量额外的微调训练,以提升特定能力。

进入 2024 年,利用强化学习(Reinforcement Learning, RL)训练模型生成思维链(Chain of Thought, CoT) 成为 AI 训练的新焦点。

Anthropic、DeepSeek,以及 OpenAI(2024 年 9 月发布的 o1-preview 模型)等公司发现,这种训练方式可以显著提升模型在某些客观可衡量任务上的表现,特别是在数学推理、编程竞赛、以及类似数学和编程的复杂逻辑推理。

新的训练范式采用两阶段方法,先训练传统预训练模型,使其具备基础能力。其次,通过强化学习(RL) 增强模型的推理能力。

由于这种 RL 训练方法仍然较新,当前所有公司在 RL 阶段的投入都较少,因此仍处于早期规模化阶段。仅从 10 万美元扩展到 100 万美元的训练投入,就能带来巨大性能提升。

企业正在迅速推进 RL 训练的扩展,预计很快将达到数亿美元甚至数十亿美元级别。目前,我们正处于一个独特的「交叉点」(crossover point),AI 训练正在经历重要的范式转变,由于 RL 训练仍处于早期扩展阶段,因此可以在短时间内实现快速性能突破。

DeepSeek 的模型

上述三大 AI 发展动态可以帮助我们理解 DeepSeek 最近发布的模型。

大约一个月前,DeepSeek 推出了「DeepSeek-V3」,这是一个纯预训练模型,即前文第 3 点中提到的第一阶段模型。随后,上周他们又发布了 「R1」,在 V3 的基础上增加了第二阶段训练。虽然外界无法完全了解这些模型的内部细节,但以下是我对这两次发布的最佳理解。

DeepSeek-V3 才是 DeepSeek 近期的真正创新,早在一个月前就值得引起关注(我们当时确实注意到了)。

作为一个纯预训练模型,DeepSeek-V3 在某些关键任务上的表现接近美国最先进的 AI 模型,但训练成本要低得多。(不过,我们发现 Claude 3.5 Sonnet 在某些关键任务上仍然明显更强,特别是现实世界中的编程能力。)

DeepSeek 团队能够做到这一点,主要依赖于一系列真正出色的工程创新,特别是在计算效率优化方面,包括「键-值缓存」(Key-Value Cache)管理的创新优化,提高了模型在推理过程中的效率,以及对「专家混合模型」(Mixture of Experts, MoE)技术的突破性应用,使其在大规模 AI 模型中的表现优于以往。

然而,我们需要更仔细地分析:

DeepSeek 并没有「用 600 万美元⁵完成了美国 AI 公司花费数十亿美元才能做到的事情」。就我能代表的 Anthropic 而言,Claude 3.5 Sonnet 是一个中等规模的模型,训练成本为几千万美元(具体数字我不会透露)。此外,关于 3.5 Sonnet 训练过程中使用了更大、更昂贵的模型的传言并不属实。Sonnet 的训练是在 9 到 12 个月前进行的,而 DeepSeek 的模型是在去年 11 月至 12 月训练的。

尽管如此,Sonnet 在许多内部和外部评测中仍然明显领先。因此,更准确的说法应该是:「DeepSeek 以相对较低的成本训练出了一个接近 7 到 10 个月前的美国模型性能的模型,但成本远没有人们所说的那么低。」

如果按照过去的趋势,AI 训练成本每年大约下降 4 倍,那么在正常情况下——比如 2023 年和 2024 年的成本下降趋势——我们可以预期,现在的模型训练成本应该比 3.5 Sonnet 或 GPT-4o 低 3 到 4 倍。而 DeepSeek-V3 的性能仍然逊色于这些美国最前沿的模型——大约差 2 倍(这个估计对 DeepSeek-V3 来说已经相当慷慨了)。这意味着,如果 DeepSeek-V3 的训练成本比一年前的美国顶级模型低 8 倍,那也是正常的,符合趋势的,并不是什么意外突破。

事实上,DeepSeek-V3 的成本下降幅度甚至比 GPT-4 到 Claude 3.5 Sonnet 的推理价格下降幅度(10 倍)还要小,而 3.5 Sonnet 本身比 GPT-4 还要强。这一切都说明,DeepSeek-V3 既不是技术上的革命性突破,也没有改变大语言模型(LLM)的经济模式,它只是符合现有成本下降趋势的一个正常案例。

不同之处在于,这次率先实现预期成本下降的是一家中国公司。这在历史上是第一次发生,因此具有重要的地缘政治意义。不过,美国 AI 公司很快也会跟上这一趋势,而且它们并不是通过复制 DeepSeek 来实现的,而是因为它们自身也在沿着既定的成本下降曲线前进。

无论是 DeepSeek 还是美国 AI 公司,现在都拥有比训练它们现有主力模型时更多的资金和芯片。这些额外的芯片被用于研发新的模型技术,有时也会用于训练尚未发布、或者需要多次尝试才能完善的大型模型。

据报道(尽管我们无法确认其真实性),DeepSeek 实际上拥有 50000 片 Hopper 代 GPU⁶,而我估计这大约是美国主要 AI 公司 GPU 规模的 1/2 到 1/3(例如,这个数量比 xAI 的「Colossus」集群少 2 到 3 倍)⁷。这 50000 片 Hopper GPU 的成本大约在 10 亿美元左右。

因此,DeepSeek 作为一家公司(而不仅仅是某个单一模型的训练费用)的总投入,并没有与美国 AI 研究实验室有巨大的差距。

值得注意的是,「扩展曲线」(scaling curve)的分析其实有些过于简化了。不同的模型各有特点,擅长的领域也不同,而扩展曲线的数值只是一个粗略的平均值,忽略了许多细节。

就我所了解的 Anthropic 的模型而言,正如我之前提到的,Claude 在代码生成和与用户进行高质量互动方面表现极佳,许多人甚至将其用于个人建议或支持。在这些方面,以及其他一些特定任务上,DeepSeek 根本无法与之相比,而这些差距并不会直接反映在扩展曲线的数据中。

上周发布的 R1 让公众高度关注,并导致英伟达股价下跌约 17%。但从创新或工程角度来看,R1 远不如 V3 令人兴奋。

R1 只是在训练中增加了第二阶段——强化学习(这一点在上一部分的 #3 中有提到),本质上是对 OpenAI 在 o1 版本中的方法的复现(两者的规模和效果似乎相近)⁸。不过,由于目前仍处于扩展曲线的早期阶段,多家公司都有可能训练出类似的模型,前提是它们有一个强大的预训练基础模型。

在 V3 现有的基础上训练出 R1 可能成本非常低。因此,我们正处于一个有趣的「交叉点」:在这个阶段,多个公司都能训练出优秀的推理能力模型。但这种情况不会持续太久,随着模型继续沿扩展曲线向上发展,这种「门槛较低」的窗口期将很快结束。

芯片出口管制

以上分析其实只是为我真正关注的话题做铺垫——对中国的芯片出口管制。结合前面的事实,我认为当前的情况如下:

AI 训练的趋势是,企业会投入越来越多的资金来训练更强大的模型。虽然训练同等智能水平模型的成本在不断下降,但 AI 模型的经济价值实在太高,因此节省下来的成本几乎立即被重新投入,以训练更强大的模型,而整体支出仍然保持在原来的高额水平。

DeepSeek 研发的效率优化方法,如果美国实验室还没有掌握,那么很快也会被美中双方的实验室应用于训练价值数十亿美元的 AI 模型。这些新模型的表现将比原本计划训练的多亿美元级模型更强,但投入依然会是数十亿美元,并且这个数字还会持续上升,直到 AI 智能水平超越几乎所有人在几乎所有领域的能力。

要打造这样比几乎所有人都更聪明的 AI,需要数百万颗芯片、至少数百亿美元的资金,并且最有可能在 2026-2027 年实现。DeepSeek 的最新发布并不会改变这个趋势,因为它们的成本下降幅度仍然在预期范围内,这一点早已纳入行业的长期计算。

这意味着,到 2026-2027 年,世界可能会出现两种截然不同的局面,在美国,多家公司肯定会拥有所需的数百万颗芯片(成本高达数百亿美元)。问题在于,中国是否也能获得数百万颗芯片⁹。

如果中国能够获得数百万颗芯片,我们将进入一个双极世界(bipolar world),即美国和中国都拥有强大的 AI 模型,推动科学技术以前所未有的速度发展——我称之为「数据中心里的天才国家」(countries of geniuses in a datacenter)。

但双极世界未必会长期保持平衡。即使中美 AI 技术暂时相当,中国可能会投入更多的人才、资金和精力来将 AI 技术应用于军事领域。再加上中国庞大的工业基础和军事战略优势,这可能使中国不仅在 AI 领域取得主导地位,甚至在全球各个领域占据领先。

如果中国无法获得数百万颗芯片,我们至少暂时会进入一个单极世界(unipolar world),即只有美国及其盟友掌握最先进的 AI 模型。这个单极局面是否会持续并不确定,但至少有可能出现这样一种情况:由于 AI 系统可以帮助构建更强的 AI,短暂的领先可能会被转化为长期优势¹⁰。在这种情况下,美国及其盟友可能会在全球舞台上取得决定性并长期的主导地位。

因此,严格执行的出口管制¹¹是阻止中国获取数百万颗芯片的唯一有效手段,也是决定世界最终是单极还是双极格局的最重要因素。

DeepSeek 的成功并不意味着出口管制失效。正如我之前所说,DeepSeek 实际上拥有相当可观的芯片资源,因此他们能够开发并训练出强大的模型并不令人意外。他们在资源上并没有比美国 AI 公司受到更大的限制,出口管制也并不是促使他们「创新」的主要原因。他们只是非常优秀的工程师,而这正说明了中国在 AI 领域是美国的严峻竞争对手。

DeepSeek 的成功也并不意味着中国可以一直通过走私获得所需的芯片,或者出口管制存在无法堵住的漏洞。我认为,出口管制从来就不是为了阻止中国获得几万颗芯片。10 亿美元的经济活动可以隐藏,但 100 亿美元甚至 10 亿美元的活动就难以掩盖了,而要偷偷运送上百万颗芯片在物理上也可能极为困难。

我们还可以看看目前 DeepSeek 被报道所拥有的芯片类型。据 SemiAnalysis 分析,DeepSeek 现有的 50000 片 AI 芯片是 H100、H800 和 H20 的混合。

H100 自推出以来就受到出口管制的限制,因此如果 DeepSeek 拥有 H100,那它们必然是通过走私获得的。(不过,值得注意的是,英伟达曾表示 DeepSeek 的 AI 进展「完全符合出口管制规定」)。

H800 在 2022 年最初的出口管制政策下仍可出口,但在 2023 年 10 月政策更新后被禁止,因此这些芯片可能是在禁令生效前运送的。

H20 在训练方面效率较低,但在推理(采样)方面更高效,目前仍允许出口,但我认为它也应该被禁止。

综上所述,DeepSeek 拥有的 AI 芯片主要包括目前尚未被禁(但应该被禁)的芯片、在被禁之前获得的芯片、可能通过走私获取的少量芯片。

这实际上表明了出口管制正在发挥作用,并且在不断调整优化:如果出口管制完全无效,DeepSeek 现在很可能会拥有一整批顶级的 H100 芯片。然而,事实并非如此,这说明政策正在逐步堵住漏洞。如果我们能够足够快地加强管控,就可能阻止中国获得数百万颗芯片,从而提高美国维持 AI 领先地位、形成单极世界的可能性。

关于出口管制和美国国家安全,我想明确一点:

我并不认为 DeepSeek 本身是对手,我也不是专门针对这家公司。从他们接受采访时的表现来看,DeepSeek 的研究人员看起来像是聪明、充满好奇心的工程师,他们只是想开发出有用的技术。

出口管制是我们最强有力的手段之一,能够阻止这种情况发生。有人认为,AI 技术变得越来越强、性价比越来越高,是一个应该放松出口管制的理由——但这完全没有道理。

脚注

1 关于模型蒸馏:在这篇文章中,我不对有关 DeepSeek 是否对西方模型进行蒸馏的报道发表任何看法。我仅基于 DeepSeek 论文中提供的信息,假设他们确实按照自己所述的方式训练了模型。

2 DeepSeek 的发布并不影响英伟达:事实上,我认为 DeepSeek 模型的发布显然不会对英伟达造成负面影响,而英伟达股价因此下跌约 17% 让我感到困惑。从逻辑上讲,DeepSeek 的发布对英伟达的影响甚至比对其他 AI 公司的影响还要小。但无论如何,我这篇文章的主要目的是为出口管制政策辩护。

3 关于 R1 训练方式的细节:更精确地说,R1 是一个预训练模型,并且仅进行了少量的强化学习(RL)训练,这种做法在推理范式变革前的模型中很常见。

4 DeepSeek 在某些特定任务上表现较强:但这些任务范围非常有限。

5 关于 DeepSeek 论文中提到的「600 万美元训练成本」:这个数据是 DeepSeek 论文中引用的,我在这里暂且接受,并不对其真实性提出质疑。不过,我质疑的是将此与美国 AI 公司的训练成本直接对比的合理性。600 万美元仅指训练某个具体模型的成本,但 AI 研发的整体成本要远远高于这个数字。此外,我们也无法完全确定 600 万美元的真实性——虽然模型规模可以验证,但训练时使用的 token 数量等因素却难以核实。

6 关于 DeepSeek 现有芯片的更正:在一些采访中,我曾说 DeepSeek 拥有 「50,000 片 H100」,但这实际上是对相关报道的不准确概括,在此更正。H100 是目前最知名的 Hopper 架构芯片,所以我当时假设报道所指的就是 H100。但实际上,Hopper 系列还包括 H800 和 H20,DeepSeek 拥有的是这三种芯片的混合,总数为 50000 片。虽然这个事实并不会改变整体情况,但仍值得澄清。我在讨论出口管制时会更详细地分析 H800 和 H20 的问题。

10 出口管制的目标:这里需要明确一点,目标并不是剥夺中国从 AI 科技进步中获益的机会——AI 在科学、医疗、生活质量等领域的突破,理应造福所有人。真正的目标是防止这些国家在军事领域取得主导地位。

打开APP阅读更多精彩内容