作者:月之暗面研究员冯一尘、毛绍光
注释、编辑:周一笑
月之暗面(Moonshot AI)有了它的首个AI Agent。
最近,Kimi Researcher(深度研究)开启内测。根据官方介绍,其定位并非一个简单的“搜索工具”,而是一个能够生成带引用来源的深度研究报告的AI Agent。根据技术博客披露的数据,Kimi Researcher在实际运行中平均会搜索超过200个URL,运行70多次搜索查询,最终生成超过1万字的深度报告。在Humanity's Last Exam(HLE)这一高难度基准测试中,其得分达到26.9%,创下了该测试的最高纪录。
(我们也拿到了一些Kimi深度研究内测名额,将优先提供给有具体需求的朋友。有兴趣的读者可以添加微信,并发送暗号:AI Agent,简短介绍你对AI Agent的使用情况和需求。
2024年以来,AI Agent领域呈现两个明显趋势:一是从“外挂式”向“内化式”转变,即从依赖外部工具调用转向提升模型本身的能力;二是从规则驱动向学习驱动转变,让AI通过大规模训练自主发现解决问题的策略。Kimi Researcher的推出,正是这一趋势的具体体现。
在当前AI领域,Agent被普遍认为是通往通用人工智能(AGI)的重要方向。目前,行业内构建Agent的主流方法之一,是采用“工作流(Workflow)”模式。例如,Devin 和 Manus 都采用了明显的任务拆分 + 预定义执行流程架构:先由 Planner 制定多阶段计划,然后 Executor 调用工具一步步完成任务,并根据反馈继续调整。
这种方法通过提示词工程(Prompt Engineering)和模块化设计,将大语言模型与各种外部工具进行链接,其优势在于流程清晰、可控性强。但同时,这种依赖人类预先设计流程的模式,在面对开放、复杂任务时,也存在灵活性不足、难以泛化等挑战,这促使一些团队开始探索新的技术路径。
Kimi Researcher所选择的,就是另一条不同的技术路线:端到端的强化学习(End-to-End Reinforcement Learning, E2E RL)。这一方法的核心,是让模型在一个模拟的环境中通过大量的自主探索和试错来学习,目标是让模型自己“领悟”出完成任务的策略,而不是严格遵循一套由人类编写的固定步骤。这种将能力“内化”于模型自身的思路,与“工作流”模式下模型作为“调用者”的思路有显著不同。
采用端到端强化学习训练Agent面临诸多技术挑战,首先是环境的不稳定性,网络搜索结果会随时间变化;其次是长序列决策问题,一个研究任务可能需要上百个步骤;最后是计算资源消耗,每次训练迭代都需要大量的“试错”过程。月之暗面通过部分展开(Partial Rollout)等技术创新,将训练效率提升了1.5倍。
值得注意的是,将E2E RL应用于研究型Agent的探索并非孤例。OpenAI官方Deep Research系统卡中提到,该模型学习了包括浏览、使用Python工具进行计算分析以及推理整合大量网站信息的能力。其训练方法与o1模型所使用的强化学习方法一脉相承。
根据OpenAI团队成员Isa Fulford 和 Josh Tobin在红杉资本的播客《OpenAI's Deep Research on Training AI Agents End-to-End》中的分享,Deep Research 并非通过手动将模型和工具拼成 workflow,而是用端到端强化学习在浏览+推理任务上训练模型,让其自主规划、回退、调整策略,Deep Research使用了类似的端到端强化学习进行训练,由于Deep Research处理的任务往往没有标准可验证的答案来提供奖励信号,分析表明他们可能使用了LLM as Judge(大型语言模型作为评判者)来实施强化学习。在强化学习中,奖励机制是核心,而LLM as Judge是一种通过语言模型评估Agent行为并提供反馈的方法。这种方法特别适用于没有明确奖励信号的复杂任务,能够优化Agent的表现。
而当不同团队不约而同地选择相似的技术方向时,他们各自积累的技术基础可能会带来最终产品的差异。例如,月之暗面以其长上下文(Long Context)技术为基础,而OpenAI则以其通用推理能力见长的模型系列为基础,这些不同的技术侧重,可能会影响其Agent在处理任务时的具体表现和能力边界。
在产品层面,Kimi Researcher将后端的技术以“双报告系统”的形式呈现给用户:一份是包含详细文字和可溯源引用的深度报告,另一份则是动态、可视化的网页报告,后者通过思维导图和图表来提升信息获取效率。此外,产品在交互上会尝试主动澄清用户的模糊需求,以帮助定义清晰的问题。
要理解这一技术选择背后的具体思考、挑战与惊喜,来自其团队核心成员的第一人称分享,提供了最直接的视角。
以下为月之暗面研究员冯一尘、毛绍光在知乎问题《月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?》下的回答,已获得官方授权,括号内灰色文字部分均为编者注。
冯一尘回答
谢邀, 很高兴和大家分享Kimi智能体(Agent)首个产品Kimi Researcher背后的一些技术思考。
Kimi-Researcher,是一个人类最后一场考试(Humanity’s Last Exam)(由非营利组织 Center for AI Safety(CAIS)与 Scale AI 于 2024 年联合创建的大规模多学科闭合问答基准测试,包含约 3000 道专家级高难度问题,涵盖生物、化学、物理、数学、人文等领域,被视为检验 AI 系统是否具备真正专家级推理能力的终极挑战。)达到SOTA(State-Of-The-Art,指当前最优/最先进的成绩) 26.9%、可生成万字追溯报告的模型Agent,也是我们用端到端强化学习(RL)从0到1打磨出来的首个大模型Agent产品。我们构建Kimi-Researcher的核心理念是:我们并非在搭建一个“搜索工具”,而是在训练一个真正会“做研究”的AI Agent。
为了实现这一点,我们选择了一条更难走、但我们坚信是通往更强智能Agent的必经之路:端到端的强化学习 (End-to-End Reinforcement Learning)。
其实这个项目从去年上半年立项,到10月份探索版发布,我们内部也经历了不少认知上的转变。随着thinking模型路线逐步清晰,我们意识到有两个关键变量极其重要:
一是要做“能长思考”的Agent,二是要用端到端强化学习。为什么要做长思考模型,Flood(月之暗面研究员Flood Sung)在这个回答(https://www.zhihu.com/question/10114790245/answer/84028353434)已经解释得很详细,我就重点讲讲我们为什么坚持端到端RL。
传统Agent方法的局限
目前主要有两种做法:
Workflow(工作流,指预先定义的任务执行步骤和逻辑。传统Agent通过组合不同的工作流来完成任务,如“搜索→分析→总结”的固定流程)拼装:比如基于OpenAI/Claude去搭建(通过API调用底层模型,再通过预设规则组合各种工具)“多Agent+规划器+子任务”,靠手动Prompt和条件规则,把复杂任务拆分成小模块。每换一次底层模型,整个workflow就要大改一遍,灵活性受限。而且基于OpenAI/Claude搭建的Agent在国内也无法开放使用。
SFT(模仿学习):人工标注完整任务轨迹,Agent模仿这些轨迹,提升Agent整体的能力。但这里面收集数据很耗费人力,难以Scale到大量的数据。
这些方案本质都受限于“人能设计/人能标注”的上限,不符合我们相信的scaling。
端到端强化学习(RL)的优势:让模型自己“进化”
在强化学习的设定下,我们为Agent建立了一个虚拟的环境,让它像一个真正的“科研”新手一样,通过海量的自主探索、试错、并从“做对了”的成功经验中学习,最终“进化”出强大的研究能力。对比传统方法的好处:
挣脱“固定流程”的束缚,更灵活通用。RL Agent的行为不是被规则写死的,而是根据当前任务动态生成的。这让它在面对闻所未闻的复杂问题时,有能力探索出创造性的解决方案。我们升级底层模型时,也无需重构整个Agent体系。
能力上限更高,用“数据”而非“设计”来驱动增长 当我们发现Agent在某类问题上表现不佳时,我们的解决方案不是去绞尽脑汁地修改Prompt或Workflow,而是将这类问题加入到训练数据中,通过增加“训练题量”和算力,让模型自己学会如何解决。前者的天花板是“人的智慧”,后者的天花板是“数据和算力”——我们坚信后者要高得多。
能Scale。相比SFT依赖人类标注,RL路线可以让Agent在环境中不断探索,只要我们能准确判断任务是否成功(即提供准确的奖励信号),加大算力去Rollout(在强化学习中,指让Agent在环境中执行一系列动作并收集经验数据的过程,对于长任务,Rollout会消耗大量计算资源和时间),就能获得源源不断的、高质量的on-policy训练数据(指在当前策略下收集的数据,这些数据更能反映模型的实际行为模式,训练效果优于使用历史数据或其他模型产生的数据),让模型持续不断地自我迭代和提升。(感兴趣的同学可以去读下The Bitter Lesson)(由强化学习之父Richard Sutton撰写的著名文章,核心观点是:在AI研究中,依赖人类知识的复杂方法最终会被那些能更好利用大规模计算的通用方法所超越。)
RL的效果和“涌现”的惊喜
这条路虽然难,但端到端强化学习给我带来了很多惊喜。
在Humanity's Last Exam(人类的最后一场考试)这个榜单上,我们的Agent模型得分从最初的8.6%跃升至26.9%,这一巨大增长几乎完全归功于强化学习。这一成绩也走到了世界前沿,相比OpenAI Deep Research团队在相关工作上从20分左右 (o3) 提升到26.6分的成果,进一步证明了强化学习在Agent训练上的巨大价值。
在HLE这个评测集上,我们的pass@4(pass@k是评估AI模型的常用指标,表示在k次尝试中至少有一次成功的概率 )指标达到了40.17%,这意味着即使面对非常困难的问题,Agent 在4次自主尝试内,就有超过四成的概率能成功解决。对于训练而言,只要Agent能探索到正确的路径,我们就有机会把它转化为模型的内在能力。
更有意思的是,我们观察到了很多智能的“涌现”:
模型在已经很快找到初步答案后,并不会立即停止,而是会主动进行多轮搜索,从不同来源的信息进行交叉验证,以确保结论的准确性。
我们甚至观察到,模型在遇到一个极度专业的问题、现有信息无法解答时,它会“思考”并产生一个action——“给这篇论文的作者发邮件寻求解答”。(当然,出于安全原因我们拦截了这种action)
这些行为都不是我们预先设计的,而是模型在追求“完成任务”这个最终目标的过程中,自己学会的有效策略。这让我们看到了通往更通用智能的希望。
Kimi-Researcher能做什么
它能帮你对一个陌生领域快速上手,生成一份带引用的深度报告;能帮你做论文研读和文献综述;甚至能成为你的科研Copilot。我们自己也常用 Kimi-Researcher 做信息搜集与分析。
场景1: 尽调与搜索
我们自己就用Kimi-Researcher去调研“有哪些衡量模型推理能力、且SOTA分数在20分以内的benchmark”,它成功找到了几个我们团队尚未关注到的最新的benchmark,非常有价值。
Kimi 除了找到了AGI-2,HLE,OlympiadBench,还找到FrontierMath和6月1日新发布的Seal QA。
Prompt:Survey all advanced benchmarks that all frontier LLM scores lower than 20%, focus on text. example like HLE