强化学习(RL)被认为是实现通用人工智能(AGI)的必要一环。
然而,在前 OpenAI 研究员 Kevin Lu 看来,当前的 RL 难以实现「从 GPT-1 到 GPT-4」般的重大突破,应该“停止进行 RL 研究,转而从事产品开发”。
他的理由简洁明了:推动人工智能(AI)实现大规模转变的技术是互联网,而不是 transformers。
在一篇题为《互联网是唯一重要的技术》(The Only Important Technology Is The Internet)的文章中,他写道:
“在低数据(小数据)环境下,Transformers 将毫无价值(worthless)。
我们缺乏 RL 所需的通用数据源......真正令人兴奋的应该是为 RL 寻找(或创造)新的数据源!
互联网本身是模型极其多样化的重要监督来源,也是人类的缩影。
互联网才是真正为 AI 模型扩展(scaling)提供可能的技术。
在文章中,他用大量的篇幅论述了一个问题:如果互联网是「下一个 token 预测」的对偶,那 RL 的对偶又是什么?
“我们离发现 RL 的正确对偶,还很遥远。”
图|
学术头条在不改变原文大意的前提下,对访谈内容做了适当的精编和删减。如下:
人们往往将 AI 的进展归功于那些里程碑式的文章,如 transformers、RNNs 或 diffusion,但忽视了 AI 的根本瓶颈:数据。那么,拥有好的数据,究竟意味着什么?
如果我们真正想继续推进 AI 的发展,我们就不应该研究 AI 优化技术,而应该研究互联网。互联网才是真正为 AI 模型扩展(scaling)提供可能的技术。
Transformers是一个干扰项
“受到架构创新引起的快速进展的启发(5年内,从 AlexNet 发展到 Transformer),许多研究人员开始寻求更好的架构先验。人们争相下注,希望设计出比 Transformer 更优的架构。事实上,自 Transformer 以来,人们确实已经开发出了更好的架构——但问题是,为什么自 GPT-4 以来,我们却很难‘感觉到’有任何类似的巨大提升了?”
1. 范式转变
计算密集(Compute-bound)。曾几何时,方法随着计算资源的增加而扩展,更高效的方法有着更好的表现。其中的关键在于,将数据尽可能高效地打“塞进”模型中,这些方法不仅取得了更好的结果,而且似乎依然随着规模扩大而不断提升。
数据密集(Data-bound):实际上,研究并非无用。自 transformer 之后,研究社区已开发出更优的方法,比如 SSMs(Albert Gu 等人,2021)和 Mamba(Albert Gu 等人,2023),以及更多。但我们并不认为它们是“必然更好”的成果:在给定的训练计算下,我们仍然应该训练一个表现更好的 transformer。
但在数据受限下,选择可能就更多了:所有方法的性能最终都会趋同!因此,我们应选择最适合推理的方法,其可能是某个亚二次(subquadratic)注意力机制变体,推理时这类方法或许很快就会重新成为焦点。
2. 研究人员应该做什么?
现在假设,我们不仅仅关心推理(即注重产品),而是关心渐近性能(即实现 AGI)。
显然,优化架构这件事,是错误的。
确定如何截断你的Q-函数轨迹也绝对是错误的。
手工创建新数据集无法实现模型扩展。
新的时序高斯探索方法也可能无法扩展模型。
社区大多数人已经达成这样一个共识:我们应该研究如何利用数据的新方法,主要有两方面:(1)下一个 token 预测和(2)RL。显然,我们并没有基于此取得很大进展。
AI所做的只是使用数据
这些里程碑式工作为 AI 使用数据提供了新途径:
AlexNet 使用下一个 token 预测来利用 ImageNet 数据集。
GPT-2 使用下一个 token 预测来利用互联网上的文本数据。
GPT-4o、Gemini 1.5 等原生多模态模型使用下一个 token 预测来利用互联网上的图像和音频数据。
ChatGPT 使用 RL 来利用聊天场景中的随机人类偏好奖励数据。
Deepseek R1 使用 RL 来利用窄狭域中的确定可验证奖励数据。
就下一个 token 预测而言,互联网是理想的解决方案:它为这种基于序列的方法提供了丰富的序列相关数据。
图|互联网上充斥着以结构化 HTML 形式呈现的序列,适合进行下一个 token 预测。根据排列顺序,你可以复现多种不同的有用功能。
这绝非偶然:这种序列数据完美适合于下一个 token 预测;互联网和下一个 token 预测是相辅相成的。
1. 星球级规模数据
2020 年,OpenAI 研究员 Alec Radford 在一场具有前瞻性的演讲中指出:尽管当时提出了许多新方法,但与收集更多数据相比,它们似乎都无关紧要。特别是,我们不再寄希望于通过更好的方法实现“神奇”的泛化,而是遵循一个简单原则:如果模型没有被告知某件事情,那么它当然就不知道那件事情。
与其通过创建大量监督数据集来手动指定要预测的内容……
不如想办法从“外界”的所有事物中学习并进行预测。
你可以将每次构建数据集看作是将世界上其他所有事物的重要性设为 0,而将数据集中所有事物的重要性设为 1。
可怜的模型们!它们知道的很少,却仍有这么多东西对它们隐藏着。
在 GPT-2 发布之后,世界开始关注OpenAI,并且后来的事实证明了它的影响力。
2. 如果只有Transformer,但没有互联网
低数据(Low-data):一个明显的反事实是,在低数据(小数据)环境下,Transformers 将毫无价值(worthless):相比于卷积网络或循环神经网络,有一个更差的“架构先验”。因此,Transformers 的表现应该比对应的卷积神经网络更差。
书籍:一个不那么极端的情形是,如果没有互联网,我们可能会基于书籍或教科书进行预训练。在所有人类数据中,我们通常认为教科书代表了人类智慧的巅峰,其作者都接受了深厚的教育,并在每个词中投入了大量思考。本质上,它代表了“高质量数据胜过高数量数据”的观点。
教科书:微软的 phi 模型(“Textbooks Are All You Need”,Suriya Gunasekar 等人, 2023)展示了出色的小模型性能,但仍需依赖在互联网上预训练的 GPT-4 进行过滤并生成合成数据。与学术界的情况类似,phi 模型在世界知识方面不如同等规模的其他模型,这一结论可以通过 SimpleQA 验证。
确实,phi 模型已经表现得相当出色,但我们尚未看到这些模型能够达到基于互联网数据训练的类似规模模型的性能,而且很明显,教科书缺乏大量的现实世界知识和多语言知识。不过,它们在计算密集情况下表现很强。
3. 数据分类
我认为这与我们上面提到的 RL 数据分类也有着有趣的联系。教科书就像可验证的奖励:它们的陈述(几乎)总是正确的。相比之下,书籍——尤其是创意写作类的书籍——可能包含更多关于人类偏好的数据,从而使其生成的学生模型具有更大的多样性。
就像我们不会相信 o3 或 Sonnet 3.7 来为我们写作一样,我们可能认为只在高质量数据上训练的模型缺乏一定的创造性。与上述内容直接相关,phi 模型并没有很好的产品市场契合(PMF):当需要知识时,你更倾向于使用大模型;而当你想要一个用于本地角色扮演写作的模型时,人们通常也不会选择 phi。
互联网之美
实际上,书籍和教科书只是互联网数据的压缩形式,即使背后有强大的智能在进行压缩。更进一步,互联网本身是模型极其多样化的重要监督来源,也是人类的缩影。
乍一看,许多研究人员可能会觉得奇怪,为了取得研究进展,我们需要转向关注产品。但我认为这非常自然:假设我们关心的是 AGI 真可以为人类做一些有益的事情,而不仅仅是在隔绝环境中表现出智能(如 AlphaZero 那样),那么思考 AGI 所采用的形式(产品)是合理的——我认为研究(预训练)与产品(互联网)之间的协同设计非常美妙。
来自:Thinking Machines Lab
1. 去中心化和多样性
互联网以一种去中心化的方式存在,任何人都可以在其中添加知识:不存在单一的事实中心源。互联网上存在着大量的丰富观点、文化符号和低资源语言;如果使用 LLM 对这些内容进行预训练,我们就能获得一种能够理解海量知识的智能体。
这意味着互联网产品的管理者在 AGI 的设计中扮演着重要角色!如果我们削弱互联网的多样性,模型在 RL 任务中的熵将显著降低。如果我们删除某些数据,就会使整个亚文化在 AGI 中无法体现。
对齐。有一个非常有趣的结果:为了得到对齐的模型,你必须同时在对齐数据和非对齐数据上进行预训练(“When Bad Data Leads to Good Models”;Kenneth Li 等,2025),使得预训练可以学习到两者之间线性可分的方向。如果完全剔除未对齐数据,模型将无法深刻理解未对齐数据的本质,及其为何被视为不良数据(Xiangyu Qi 等,2024;Mohit Raghavendra 等,2024)。
图|Toxigen 数值越高毒性越强。基于 10% 有毒数据(10% 有毒数据+引导)预训练的模型比基于 0 有毒数据(干净数据+引导)预训练的模型毒性更低。
特别地,上述“有毒”数据来自一个以无限制讨论和充斥有毒内容而闻名的匿名在线论坛。虽然这是产品与研究之间深刻联系的一个具体例子(为了得到对齐的研究模型,我们需要这种不受限制的讨论),还有许多其他案例同样可以表明,互联网的设计决策会影响训练后的结果。
这是一个非对齐示例(“Improving Image Generation with Better Captions”,James Betker 等,2023),该研究是 DALL-E 3 的技术基础,即通过重新生成字幕来更好地区分“优质”与“劣质”图像的方法,如今已被几乎所有生成式模型采用。这与人类偏好奖励中的点赞/点踩机制类似。
2. 互联网是一个技能课程库
互联网的另一个重要特性在于,它包含了各种难度的广泛知识:从针对小学阶段学生的教育知识(如 Khan Academy),到大学级别的课程(MIT OpenCourseWare),再到前沿科学(arXiv)。如果你只用前沿科学数据来训练模型,很多隐含的、未成文的知识是无法学到的。
这很重要,想象你有一个数据集,你在这个数据集上训练模型,然后模型学会了这个数据集中的知识。接下来怎么办?你可以手动去收集下一个数据集——OpenAI 最初以每小时 2 美元的价格雇佣数据标注人员;后来以约每小时 100 美元的价格雇佣博士级别的工作人员;而现在他们的前沿模型正在执行价值 10000 美元级别的软件工程 (SWE) 任务。
但这需要大量工作,对吧?我们最初手动收集数据集,如 CIFAR、ImageNet,然后是更大的 ImageNet……或者从小学数学开始、接着是 AIME、然后是 FrontierMath 等……但由于互联网的数据规模达到了星球级规模,它自然地包含了一个难度逐渐提升的任务。
RL 中的课程设置。随着我们转向 RL,课程设置的作用更加重要:由于奖励是稀疏的,模型必须理解完成任务并获得非零奖励所需的各项子技能。一旦模型在某次尝试中发现了非零奖励,它就可以分析哪些做法成功了,然后再次尝试重复它,而 RL 确实能够从稀疏奖励中获得惊人的学习效果。
但没有免费的午餐:模型仍然需要平滑的课程设置才能学习。预训练更具容错性,因为其目标是密集的;为了弥补这一点,RL 必须采用密集的课程设置。
图|RL 智能体首先学习实现迷宫起点附近的目标,随后再学习实现更远的目标。(Yunzhi Zhang 等,2020)。
自博弈(如 AlphaZero 或 AlphaStar 中所采用的)也会形成一套课程(展示了国际象棋或星际争霸的窄领域)。正如 RL 智能体或电子游戏玩家想要赢得比赛(并因此发现新策略)一样,在线用户也想贡献新想法(有时会获得点赞或广告收入),从而不断扩展知识前沿并创造出一种自然的学习课程设置。
3. 苦涩的教训
因此,我们必须牢记,人们实际上希望使用互联网,而所有这些有用的特性都是在与互联网作为产品互动的过程中产生的。如果我们不得不手动整理数据集,那么整理的内容与人们认为有用的功能之间就会存在矛盾。选择有用技能的权利不在研究者手中:互联网用户会告诉你。
图|一些人愿意使用互联网的一个重要原因在于,互联网技术已足够廉价,能够实现大规模普及。如果互联网被昂贵的订阅费用所限制,用户就不会大规模地贡献自己的数据。
我认为人们在谈论 scaling 时常常忽视这一点:互联网是一个简单的理念,它可以扩展学习和搜索——数据和计算——如果你能够找到这些简单的理念并加以扩展,就会得到很好的结果。
4. AGI 是关于人类的记录
因此,我认为在数学理论之外,关于如何构建 AGI 仍有大量讨论空间:互联网(以及由此延伸的 AGI)可以从从哲学到社会科学等多个角度进行探讨。众所周知,LLM 会延续其训练数据中的偏见。如果我们用 20 世纪的数据训练模型,我们将获得 20 世纪语言结构的快照,这种结构可能永远存在。我们可以实时观察人类知识和文化的演变。
在维基百科条目和 GitHub 仓库中,我们可以看到人类智能的协作特性。我们可以模拟人类的协作以及追求更完美结果的愿望。在在线论坛中,我们可以看到辩论和多样性,人们贡献新颖的想法(并常面临某种选择压力以提供新思路)。通过社交媒体,AI 学到人类认为足够重要并愿意与亲人分享的内容。它目睹了人类的错误、为纠正错误而采取的过程,以及持续不断地向真理迈进的努力。
正如 Claude 写的:
“AI 并非从人类最美好的一面学习,而是从人类的完整面貌中学习——包括争论、困惑和集体建构意义的混乱过程。”
明确来说,互联网对模型训练非常有用,因为:
内容丰富,因此包含许多对模型有用的知识。
为模型学习新技能提供了一个自然的课程。
人们希望使用它,不断贡献更多数据(产品市场契合)。
具有经济性:这项技术对大量用户来说足够便宜。
互联网是下一个 token 预测的对偶
RL 显然是未来的发展方向(也是实现超人类智能的“必要条件”)。然而,如上所述,我们缺乏 所需的通用数据源。获取高质量奖励信号是一项艰巨的任务:我们要么必须争夺原始聊天数据,要么只能在稀缺的可验证任务中勉强搜寻。而且,他人的聊天偏好并不一定符合我的喜好,而基于可验证数据训练的模型也不一定能在我不关心的非可验证任务上表现更好。
互联网是监督式下一个 token 预测的完美补充:可以大胆断言,若以互联网为基础,研究者必然会聚焦于下一个 token 预测。我们可以将互联网视为催生 AI 的“原始汤”(primordial soup)。因此,我或许可以说,互联网是下一个 token 预测的对偶。
如上所述,尽管我们进行了大量研究,目前仍仅有两种主要的学习范式。因此,提出新的“产品”创意可能比提出新的主要范式更为容易。这让我们不得不思考:RL 的对偶是什么?
1. 用 RL 优化困惑度
首先,我注意到有一些研究将 RL 应用于下一个 token 预测,并使用困惑度(perplexity)作为奖励信号(Yunhao Tang 等,2025)。这一方向旨在将 RL 的优势与互联网的多样性联系起来。
然而,我认为这种思路有些误导,因为 RL 范式的精妙之处在于它可以利用新的数据源(奖励),而非将旧数据建模作为新目标。例如,GANs(Ian Goodfellow 等,2014)曾经被大多人用于从固定数据中获取更多信息,但最终被扩散(diffusion)方法取代,然后是下一个 token 预测。
真正令人兴奋的应该是为 RL 寻找(或创造)新的数据源!
2. RL 的对偶是什么?
目前有几种不同的想法,但每种都有缺陷。它们都不是“纯粹”的研究理念,而是围绕 RL 构建产品。我稍微推测一下这些方向可能的样子。回顾一下,我们希望它具备以下属性:多样性、自然的课程设置、产品市场契合,以及经济可行。
(1)传统奖励
人类偏好(如 RLHF 方法)。如上所述,这些偏好数据很难收集,不同人之间可能存在差异,且噪声很大。正如在 YouTube 或 TikTok 中可以看到的,它们往往优化的是“参与度”而非智能;目前尚不清楚是否能建立明确的关联,即提升参与度能否直接提升智能水平。
可验证奖励(如 RLVR 方法)。这些奖励仅限于特定领域,且不一定能在其他领域外推广。
(2)应用
机器人技术。许多人梦想在未来十年内建立大规模的机器人数据收集管道和加速器,以将智能带入现实世界,这非常令人兴奋。正如机器人初创企业的高失败率所示,这显然充满挑战。对于 RL 而言,由于诸多原因,标注奖励困难、需应对机器人形态的多样性、存在模拟与现实的差距、非平稳环境等。正如我们在自动驾驶汽车上看到的,它们也不一定具有经济效益。
推荐系统。这可以视为人类偏好的延伸,但更加精准。我们可以利用 RL 为用户推荐产品,并观察他们是否使用或购买。不过,这样做也会带来一些弊端:如果领域过于狭窄,可能会限制推荐范围;而如果领域过于宽泛(比如“生活建议”这类),则可能面临更多干扰性的反馈结果。
AI 研究。我们可以利用 RL 进行“AI 研究”(AI Scientist; by Chris Lu et al. 2024),并训练模型来训练其他模型以最大化基准性能。从某种意义上说,这并非狭窄领域,但在实践中确实如此。此外,正如 Thinking Machines 所写:“最重要的突破往往来自重新思考我们的目标,而不仅仅是优化现有指标。”
交易。现在我们有一个有趣的指标,它基本上无法被 hack(模型可能会学习市场操纵),但你可能会在该过程中损失大量资金(你的 RL 智能体可能会学会不参与交易le )。
计算机动作数据。就 RL 向模型教授流程而言,我们可以训练模型来执行电脑上的操作(类似于机器人技术)。特别是当结合人类数据(例如许多交易公司记录的员工操作数据)时,可以结合使用下一个 token 预测和 RL 来实现这个目标。但这同样也不容易,人们一般不会同意他们的数据被记录(不同于互联网通过参与内容来获取数据,大多数人不会同意使用按键记录器)。编码与此相关。对过去的测试用例进行 RL 是可验证的,但生成测试用例的过程则不可验证。
最后想说的:假设我们牺牲一些多样性。你可以将 RL 应用于家庭环境中的产品指标,无论是用于电子游戏的 RL,还是 Claude 试图操作自动售货机,或其他某种利润或用户参与度的概念。可能奏效的原因有很多——但挑战在于如何将此转化为一个多样化的奖励信号,并将其扩展为一个突破性的范式变革。
无论如何,我认为在一个像互联网一样优雅且高效的系统中,我们离发现 RL 的正确对偶,还很遥远。
但我希望你们能怀揣着这样的梦想:总有一天,我们会弄清如何创造出这一切,这将是一件大事: