OpenAI深夜发布ChatGPT Agent:能主动思考、自选工具,智能体赛道大变天

今天凌晨1点,OpenAI进行了技术直播发布了重磅产品ChatGPT Agent。

ChatGPT Agent具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,包括Operator、 Deep Research和ChatGPT来完成各种超复杂任务。

例如,用户可以要求 ChatGPT Agent分析三个竞争对手并制作幻灯片演示文稿等请求。ChatGPT会智能地浏览网站、选择日期、筛选结果、运行代码,甚至自动生成经过润色的幻灯片演示文稿或电子表格。

也就是说你只需要一个提示,ChatGPT Agent就会帮你完成所有工作等待结果就好。

打开凤凰新闻客户端 提升3倍流畅度

完整技术直播

OpenAI首席执行官Sam Altman还非常罕见地发表了一篇长文来说明ChatGPT Agent:

今天 我们推出了一款名为 ChatGPT Agent 的新产品。

Agent代表着 AI 系统能力的新高度,可以借助自身的计算机为你完成一些出色的复杂任务。它融合了Deep Research和 Operator 的核心优势,但实际功能比听起来更强大,它能进行长时间思考、使用多种工具、进一步思考、采取行动,之后再深入思考,如此循环。

例如,在发布会上,我们展示了一个为朋友婚礼做准备的演示:购买服装、预订行程、挑选礼物等。我们还展示了一个工作场景的案例:分析数据并制作演示文稿。

尽管它的实用性很强,但潜在风险也不容忽视。

我们在其中内置了大量安全保障和警示机制,并且部署了比以往任何时候都更全面的风险缓解措施,从强化训练、系统防护到用户控制等方方面面都有覆盖,但我们无法预判所有情况。本着迭代部署的原则,我们会向用户发出重点警示,同时给予用户自主选择的空间,让他们可以谨慎地使用各项功能。

如果要向我的家人解释这款产品,我会说它处于技术前沿,尚在试验阶段;是一个体验未来的机会,但在我们通过实际应用研究并改进它之前,不建议用它处理高风险事务或涉及大量个人信息的场景。

我们并不确切知道它会产生哪些影响,但不良分子可能会试图 “欺骗” 用户的 AI 代理,让它们泄露不应泄露的隐私信息,或执行不应执行的操作,而这些手段是我们无法预知的。我们建议,为了降低隐私和安全风险,仅向代理提供完成任务所需的最低权限。

比如,我可以让 Agent 访问我的日历,以便为团体晚餐找到合适的时间。但如果只是让它帮我买些衣服,就不需要授予任何额外权限。

像查看我昨晚收到的邮件,并自主处理所有需要处理的内容,无需进一步询问这类任务,风险会更高。这可能导致恶意邮件中的不可信内容欺骗模型,造成你的数据泄露。

我们认为,从实际应用中学习至关重要,同时人们也应在我们更好地量化和缓解潜在风险的过程中,谨慎、逐步地采用这些工具。与其他新的能力层级一样,社会、技术以及风险缓解策略需要协同发展。

技术架构方面,ChatGPT Agent通过其虚拟计算机处理任务,能够流畅地在推理与执行之间切换。在面对复杂任务时,不仅能够进行逻辑推理,还能够实际执行任务,从而独立完成复杂的多步骤任务。

例如,当用户要求 ChatGPT Agent“查看我的日历,并根据最新动态简要汇报即将举行的客户会议”时,能够理解任务需求,主动从日历应用中获取信息,并整理出简洁的汇报内容。

ChatGPT Agent另一个重要功能模块是其多工具集成能力,将 Operator 的网站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度对话能力融合在一起,形成统一的智能体系统。

Operator的能力使得 ChatGPT 智能体能够在网页上滚动、点击和输入文本,从而与网站进行直接互动;而Deep Research则擅长分析和总结信息,能够帮助 ChatGPT 智能体处理复杂的多步骤任务。

此外,ChatGPT Agent还配备了多种网络工具,包括可视化浏览器、文本浏览器和直接API 访问权限。这些工具为 ChatGPT 智能体提供了不同的网络信息访问与交互途径,使其能够选择最优路径以最高效地完成任务。

例如,可以通过 API 快速获取财务数据或体育赛事比分,同时也能与主要面向人类设计的网页进行视觉交互。所有这些操作均通过 ChatGPT 自身的计算环境完成,无论采用何种工具组合,任务全程的相关背景信息均会共享。

打开凤凰新闻客户端 提升3倍流畅度

在执行任务时,ChatGPT 智能体能够动态学习并优化其工作方式。通过强化学习,模型在执行任务时会根据结果调整其策略,从而不断改进其性能。这种动态学习能力使得 ChatGPT 智能体能够根据不同的任务需求灵活调整其行动策略,提高任务完成的速度和准确性。

ChatGPT Agent还专为迭代式、协作式工作流程设计,显著提升了其交互性和灵活性。在任务执行过程中,用户可以随时中断对话以澄清指令、重新定位任务方向,或引导其朝向预期结果。ChatGPT 智能体会从中断处继续,同时整合新信息,但不会丢失先前进展。使得用户能够在任务执行过程中随时调整任务方向,确保任务结果符合用户的预期。

打开凤凰新闻客户端 提升3倍流畅度

在安全性方面,ChatGPT 智能体的设计也充分考虑了用户的安全需求。在执行涉及敏感或重要操作前,ChatGPT会明确征得用户的授权,确保用户始终掌握控制权。此外,ChatGPT 智能体还具备主动监督和风险缓解功能,能够主动拒绝高风险任务,例如,金融交易或敏感法律互动。

根据OpenAI公布的测试数据显示,ChatGPT Agent 在多项测试中表现优异。在 “人类终极考试” 中,单次尝试通过率达41.6的新SOTA成绩,采用并行策略时分数提升至44.4;在“前沿数学”基准中,准确率达27.4%,大幅超越以往模型。

在模拟复杂现实世界任务的内部基准测试中,针对复杂且具经济价值的知识型工作任务,其输出在约一半案例中与人类相当或更好,显著优于o3和o4-mini,涵盖多种现实专业工作。

在DSBench 中表现显著超越人类;在SpreadsheetBench 中大幅优于现有模型,被赋予直接编辑电子表格能力时得分达 45.5%,远超 Excel 中Copilot 的 20.0%。

在衡量投资银行分析师建模任务能力的内部基准中,显著优于深度研究和 o3,涉及多种建模任务,均按数百项标准评分。

在BrowseComp基准中以68.9% 的成绩创SOTA,比深度研究高17.4 %;在WebArena中表现优于由o3驱动的CUA。

有网友表示,ChatGPT Agent更像是Manus 2.0。Manus刚推出时概念确实很有意思,但它太不稳定了,根本没法好好用。

很期待体验 ChatGPT Agent,看看它是否能配得上这些热度,这算是向 AGI又迈进了一步吗?

这真的太令人兴奋了,已经迫不及待想尝试了。而且我完全认同这种做法:“强大的智能体可能拥有超强能力,但同时也伴随着巨大风险。风险不仅来自恶意攻击者,还包括幻觉问题。让我们一起探索,去理解其中的深层影响吧。

团队这次更新太棒了,对此我非常期待。盼着能用起来,也期待着它会随着时间推移变得更强大。

我很欣赏你们把它交到我们手中的做法,没有等到那个遥不可及的零风险高标准才发布。在我看来,带着提醒和注意事项去信任用户,这做法非常好。

这太不可思议了!看着人工智能真的能浏览网站、完成实际任务,感觉就像科幻小说照进了现实。我已经在琢磨,这能如何为内容创作者和小企业简化工作流程了。生产力革命,从现在开始!

本文素材来源OpenAI,如有侵权请联系删除

打开APP阅读更多精彩内容