OpenAI 再出招反击DeepSeek，“深度研究”在这个终极测试超越R1_

OpenAI 再出招反击DeepSeek，“深度研究”在这个终极测试超越R1

DeepSeek席卷的AI风暴尚未消停。

外媒消息称美国国会议员已经提出新法案，旨在禁止中国AI技术在美国使用。其中包括下载DeepSeek定为犯罪行为，最高可判处20年监禁。

同时据美联社报道，美国得州已发文禁止在政府设备上使用DeepSeek和小红书。

就在DeepSeek遭遇美国政策阻击之际，老对手OpenAI也正如火如荼地举办着一场重要直播活动。

在软银CEO孙正义投资数百亿美元之后，OpenAI今天也选择投桃报李，在东京的直播活动中正式官宣了一项名为Deep Research（深度研究）功能。

顾名思义，与普通的AI搜索功能有所不同，Deep Research的野心更足。

它号称是下一代智能Agent，能够独立为你完成任务。

你只需输入你的问题，它就能查找、分析并整合数百个在线来源，生成一份媲美研究分析师水平的综合报告。

更重要的是，该功能的底层模型是由尚未发布的OpenAI o3模型的特定版本驱动，专为网页浏览和数据分析优化，能够运用推理能力搜索、解读并分析海量文本、图片和PDF文件。

这也是专为“在金融、科学、政策和工程等领域从事大量知识工作的专业人士”设计的，这些人群通常需要进行“彻底、精准且可靠的研究”。

另外，这项功能还可化身选购搭子，在你挑选购买汽车、电器或家具时，使用它来仔细研究产品信息或许会大有帮助。

OpenAI CEO Sam Altman发文称：

“今天，我们正式推出Deep Research——我们的下一代智能Agent。这就像一种超级能力，让你随时召唤专家！

它可以上网搜索，进行复杂的研究和推理，并为你生成报告。效果非常出色，能完成原本需要数小时甚至数天、花费数百美元的任务。”

目前，Deep Research功能已向售价200美元的ChatGPT Pro用户开放，每月最多可使用100次。

接下来，Plus和Team用户也将获得该功能，随后是企业版。

OpenAI表示，Plus版预计将在一个月内推出，并且付费用户的查询次数限制很快会“明显提高”。

不过，该功能目前仅支持网页版，移动端和桌面端应用程序的集成预计将在本月晚些时候推出。

使用这项功能，用户只需在ChatGPT界面中选择消息输入框中的“Deep Research”模式，然后输入需要查询的问题即可。

另外，你还可以附加文件或电子表格作为问题的补充，任务开始后，侧边栏输出都会附带“完整的文档、清晰的引用来源以及思维过程的摘要”。

术业有专攻，GPT-4o同样支持搜索功能，但对于涉及多个方面、需要深度和细节的专业研究，Deep Research能够进行广泛探索，并为每个结论提供来源支持。

响应速度方面，该功能的执行过程可能需要5到30分钟，完成后，用户会收到通知。

该功能的输出内容暂时仅限于文本。不过，OpenAI计划很快增加嵌入式图片、数据可视化以及其他分析类输出。同时，该公司还计划扩展数据来源，包括“订阅制”信息服务和企业内部资源，预计将逐步提供ToB服务。

据悉，Deep Research通过端到端强化学习训练，专注于复杂的网页浏览和推理任务，覆盖多个领域。

通过这一训练，它学会了规划并执行多步搜索路径，以找到所需数据，并能在必要时回溯调整，实时响应新信息。

OpenAI表示，他们使用了一项名为Humanity’s Last Exam的评测来测试该功能。

该测试涵盖100多个学科，包含3000多道涵盖多个学术领域的专家级问题，包括语言学、航天工程、古典学和生态学。

与OpenAI o1相比，Deep Research在化学、人文社会科学和数学领域的表现提升最为显著。

Deep Research所使用的模型在专家级问题上的准确率达到了26.6%，创下新高。相比之下，Google的Gemini Thinking仅获得6.2%的准确率，Grok-2为3.8%，GPT-4o只有3.3%。

而DeepSeek-R1的准确率只有9.4%，远低于Deep Research。

在GAIA这一公共基准测试中，Deep Research所使用的模型达到了最新的业界领先水平（SOTA）。

GAIA评测涵盖三种不同难度级别的现实世界问题，成功完成这些任务需要推理、多模态理解、网页浏览以及工具使用能力。

Deep Research（cons@64）方法在所有等级上均优于Previous SOTA和Deep Research（pass@1），特别是在Level 3取得了最大的提升，最终平均分72.57最高。

该结果表明，更高级的Deep Research方法（cons@64）可以显著提高所有级别的性能，特别是在挑战性更高的Level 3上。

不过，指望Deep Research能完全避免AI幻觉也并非易事，它在报告和引用格式上也可能出错。

即便有着引用链接的参考验证，也建议在使用过程中认真核查AI提供的信息，而非仅仅直接复制粘贴。

值得一提的是，这项AI功能的负责人之一Zhiqing Sun（孙之清），本科就读于北京大学计算机科学与技术系。

2019年起，Zhiqing Sun在美国卡内基梅隆大学（CMU）语言技术研究所攻读博士学位，2024年起，开始担任OpenAI的研究员。

Zhiqing Sun的实习经历也相当丰富，曾在Google Brain、微软亚洲研究院、MIT-IBM Watson AI Lab等知名AI公司机构实习。

对于这项功能，OpenAI官方表示，今天发布的版本仅仅是个开始。未来，它还能连接到定制化的数据环境，甚至企业级的海量数据存储系统。

AI Agent可以花更长时间思考，以更高的自主性，解决极其复杂的任务。

“Deep Research的推出标志着我们向更宏伟目标迈出了重要一步——即开发能够进行原创科学研究的通用人工智能（AGI）。这一直是我们长期以来的愿景。”

打开APP阅读更多精彩内容