“我们正站在人工智能新时代的门槛上。”
“新一代智能体将主要通过自身经验学习,获得超越人类的能力。”
短短两句话,足以说明《欢迎来到体验世界》绝对是近两三年来最重要的AI论文。
作者是DeepMind的强化学习副总裁席尔瓦(David Silver)和图灵奖得主萨顿(Richard Sutton)。
一、体验式学习通向超人智能(ASI)
“我们认为,一旦充分释放体验式学习(experiential learning)的潜力,人工智能将获得惊人的新能力。这个“体验时代”将以这样一类智能体及其环境为特征:它们不仅能从海量的经验数据中学习,还将在多个层面上突破以人为中心的AI系统的限制:
智能体将生活在持续不断的经验流中,而非仅仅经历片段式的交互;
它们的行动与观察将深深扎根于环境之中,而不仅仅通过人类语言进行互动;
它们的奖励将来源于与环境的实际互动,而不是基于人类的主观判断;
它们将围绕自身经验进行规划与推理,而不是仅按照人类语言或思维方式来推理。
我们相信,当前的技术水平,配合适当的算法,已具备实现这些突破的强大基础。同时,AI社区在这一方向上的持续探索,将激发一系列创新,推动AI快速迈向真正具备超人能力的智能体。”
二、再次咀嚼苦涩的教训
萨顿是强化学习之父,人类知识与认知结构的局限性,他已经在经典文章《苦涩的教训》中说得很清楚:
人类试图注入知识与结构性设计的努力,终将被计算与学习能力所取代。真正有效的AI方法,是那些能够利用计算进行广泛训练、学习以取得成果的方法。
这里他再次提醒的,显然是机器在自我学习中的经验,而主要不是人类的经验。
三、Ilya Sutzkever的超级智能
看到这篇文章,不禁想起OpenAI前首席科学家Ilya Sutzkever。
他在离开OpenAI后创办了公司Safe Superintelligence Inc.(SSI)。
Ilya去年底已经公开宣判大语言模型的预训练已死。他把互联网上的数据,比作AI的“化石能源”,总有一天要开采完。他指出了将来三个数据来源:AI可以产生新的数据,AI自己可以决定从大量可能的答案中选取最好的那个,人类可以从真实世界获取数据。
Ilya预言,我们将会向着超级智能前行,这将与之前的智能有着本质的不同。“AI系统的本质和特征即将剧变。”
关于超级智能的推理能力,Ilya这样描述:“它想得越深,就会越不可测。(The more it reasons,the more unpredictable it becomes。)。我们现有的AI是可测的,因为它是对人类直觉的模仿重现,想想人类大脑如果你让它在0.1秒内给出答案,它只能是直觉反应。”
所以(机器的)推理将会是不可预测的。就像2016年AlphaGo对弈李世石时,在第二番棋中下出的第37“神之一手”。
“AI只有变得不可预测,才能战胜人类。”
四、LLM在走出低谷
去年9月份,我们发表了一篇文章,《强化学习正在引领AI跨越LLM之谷|笔记》,提醒西尔瓦在MIT的一个演讲,提出超级规模的强化学习展开了一条通向超人智能的明确路径,而这一切“仅仅是开始”。现在,他正式提出了AI的新范式。
我们可以对比下,8个月之前,他在当时正在走出谷底的曲线上,只是打出了3个问号;现在,出现了AlphaProof和Computer Use这两个智能体。
(主流人工智能范式的简要时间轴草图。纵轴表示该领域在强化学习(RL)上的总体研究投入与计算资源所占比例。)
五、AI肯定会有自我意识
可以肯定,机器会有自我意识。对于人类个体来说,终极的奖励机制,就是人类的意识,以及从中产生的意义。当机器会为自己设定奖励函数后,肯定会产生自我意识。这已经不再是个哲学问题,或者说不是存在意义上的哲学问题,而是一个在伦理意义上的哲学问题,也是个工程问题。
Ilya认为超级智能将会产生自我意识。“为什么不呢?自我意识是有用的,就像我们人类,意识是自我的一部分,自我意识是我们世界模型的一部分。”
六、东方的顿悟
论文中提到了DeepSeek的推理模型进行强化学习训练时,所出现的“顿悟时刻”。
一个有趣的“顿悟时刻”出现在DeepSeek-R1-Zero的中间版本中。该模型学会了以拟人化的语气重新思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量与美感。
(来源:DeepSeek R1论文)
七、人类需要独立于自己的智能
论文表达了这样一个意思,如果说AI产生了garbage in,garbage out的结果,那也可能是因为人类自己在科学与迷信、真实与谬误上还分不清:
一个被训练来模仿人类思想甚至匹配人类专家答案的智能体,可能会继承深深嵌入在数据中的谬误思维方法,例如有缺陷的假设或内在的偏见。
想想看,当互联网上的语言已经被虚假的信息和垃圾内容污染后,而乌合之众又以此为自己的精神食粮,可能以后AI的价值,在于帮助人们获得最起码的知识营养。
人类要为自己的认知备份,那就是让机器更加科学地思考,从体验中产生更真实的数据,更真诚的奖励机制。我们需要一个与人类对照的智能。
八、真正的智能体
它有长期记忆,有短期目标与长期目标,它可能在即时的奖励机制中犯下错误,但是会根据长期奖励机制进行纠错。这才是真正的智能体,持续纠错,终身学习。
九、科学大发现
论文中提到最多的,是下一代智能体对科学探索的价值。一旦摆脱以人为中心的强化学习,下一代智能体将会超越人类已有的知识。体验式学习把知识扎根于真实的世界中,并且从世界模型中预测和产生奖励机制,在与环境的互动过程中,不断试错,这非常类似于人类的科学探索过程:
也许最具变革意义的将是科学发现的加速。人工智能智能体将在材料科学、医学或硬件设计等领域自主设计和进行实验。通过不断从自身实验的结果中学习,这些智能体可以迅速探索新的知识前沿,从而以前所未有的速度开发出新型材料、药物和技术。
十、后果
人类自负。