OpenAI深夜发布ChatGPT Agent：能主动思考、自选工具，智能体赛道大变天_凤凰网科技

OpenAI深夜发布ChatGPT Agent：能主动思考、自选工具，智能体赛道大变天

AIGC开放社区

07/18 05:41

今天凌晨1点，OpenAI进行了技术直播发布了重磅产品ChatGPT Agent。

ChatGPT Agent具备自主思考和行动的能力，能够主动从其技能库中选择合适的工具，包括Operator、 Deep Research和ChatGPT来完成各种超复杂任务。

例如，用户可以要求 ChatGPT Agent分析三个竞争对手并制作幻灯片演示文稿等请求。ChatGPT会智能地浏览网站、选择日期、筛选结果、运行代码，甚至自动生成经过润色的幻灯片演示文稿或电子表格。

也就是说你只需要一个提示，ChatGPT Agent就会帮你完成所有工作等待结果就好。

打开凤凰新闻客户端提升3倍流畅度

完整技术直播

OpenAI首席执行官Sam Altman还非常罕见地发表了一篇长文来说明ChatGPT Agent：

今天我们推出了一款名为 ChatGPT Agent 的新产品。

Agent代表着 AI 系统能力的新高度，可以借助自身的计算机为你完成一些出色的复杂任务。它融合了Deep Research和 Operator 的核心优势，但实际功能比听起来更强大，它能进行长时间思考、使用多种工具、进一步思考、采取行动，之后再深入思考，如此循环。

例如，在发布会上，我们展示了一个为朋友婚礼做准备的演示：购买服装、预订行程、挑选礼物等。我们还展示了一个工作场景的案例：分析数据并制作演示文稿。

尽管它的实用性很强，但潜在风险也不容忽视。

我们在其中内置了大量安全保障和警示机制，并且部署了比以往任何时候都更全面的风险缓解措施，从强化训练、系统防护到用户控制等方方面面都有覆盖，但我们无法预判所有情况。本着迭代部署的原则，我们会向用户发出重点警示，同时给予用户自主选择的空间，让他们可以谨慎地使用各项功能。

如果要向我的家人解释这款产品，我会说它处于技术前沿，尚在试验阶段；是一个体验未来的机会，但在我们通过实际应用研究并改进它之前，不建议用它处理高风险事务或涉及大量个人信息的场景。

我们并不确切知道它会产生哪些影响，但不良分子可能会试图 “欺骗” 用户的 AI 代理，让它们泄露不应泄露的隐私信息，或执行不应执行的操作，而这些手段是我们无法预知的。我们建议，为了降低隐私和安全风险，仅向代理提供完成任务所需的最低权限。

比如，我可以让 Agent 访问我的日历，以便为团体晚餐找到合适的时间。但如果只是让它帮我买些衣服，就不需要授予任何额外权限。

像查看我昨晚收到的邮件，并自主处理所有需要处理的内容，无需进一步询问这类任务，风险会更高。这可能导致恶意邮件中的不可信内容欺骗模型，造成你的数据泄露。

我们认为，从实际应用中学习至关重要，同时人们也应在我们更好地量化和缓解潜在风险的过程中，谨慎、逐步地采用这些工具。与其他新的能力层级一样，社会、技术以及风险缓解策略需要协同发展。

技术架构方面，ChatGPT Agent通过其虚拟计算机处理任务，能够流畅地在推理与执行之间切换。在面对复杂任务时，不仅能够进行逻辑推理，还能够实际执行任务，从而独立完成复杂的多步骤任务。

例如，当用户要求 ChatGPT Agent“查看我的日历，并根据最新动态简要汇报即将举行的客户会议”时，能够理解任务需求，主动从日历应用中获取信息，并整理出简洁的汇报内容。

ChatGPT Agent另一个重要功能模块是其多工具集成能力，将 Operator 的网站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度对话能力融合在一起，形成统一的智能体系统。

Operator的能力使得 ChatGPT 智能体能够在网页上滚动、点击和输入文本，从而与网站进行直接互动；而Deep Research则擅长分析和总结信息，能够帮助 ChatGPT 智能体处理复杂的多步骤任务。

此外，ChatGPT Agent还配备了多种网络工具，包括可视化浏览器、文本浏览器和直接API 访问权限。这些工具为 ChatGPT 智能体提供了不同的网络信息访问与交互途径，使其能够选择最优路径以最高效地完成任务。

例如，可以通过 API 快速获取财务数据或体育赛事比分，同时也能与主要面向人类设计的网页进行视觉交互。所有这些操作均通过 ChatGPT 自身的计算环境完成，无论采用何种工具组合，任务全程的相关背景信息均会共享。

打开凤凰新闻客户端提升3倍流畅度

在执行任务时，ChatGPT 智能体能够动态学习并优化其工作方式。通过强化学习，模型在执行任务时会根据结果调整其策略，从而不断改进其性能。这种动态学习能力使得 ChatGPT 智能体能够根据不同的任务需求灵活调整其行动策略，提高任务完成的速度和准确性。

ChatGPT Agent还专为迭代式、协作式工作流程设计，显著提升了其交互性和灵活性。在任务执行过程中，用户可以随时中断对话以澄清指令、重新定位任务方向，或引导其朝向预期结果。ChatGPT 智能体会从中断处继续，同时整合新信息，但不会丢失先前进展。使得用户能够在任务执行过程中随时调整任务方向，确保任务结果符合用户的预期。

打开凤凰新闻客户端提升3倍流畅度

在安全性方面，ChatGPT 智能体的设计也充分考虑了用户的安全需求。在执行涉及敏感或重要操作前，ChatGPT会明确征得用户的授权，确保用户始终掌握控制权。此外，ChatGPT 智能体还具备主动监督和风险缓解功能，能够主动拒绝高风险任务，例如，金融交易或敏感法律互动。

根据OpenAI公布的测试数据显示，ChatGPT Agent 在多项测试中表现优异。在 “人类终极考试” 中，单次尝试通过率达41.6的新SOTA成绩，采用并行策略时分数提升至44.4；在“前沿数学”基准中，准确率达27.4%，大幅超越以往模型。

在模拟复杂现实世界任务的内部基准测试中，针对复杂且具经济价值的知识型工作任务，其输出在约一半案例中与人类相当或更好，显著优于o3和o4-mini，涵盖多种现实专业工作。

在DSBench 中表现显著超越人类；在SpreadsheetBench 中大幅优于现有模型，被赋予直接编辑电子表格能力时得分达 45.5%，远超 Excel 中Copilot 的 20.0%。

在衡量投资银行分析师建模任务能力的内部基准中，显著优于深度研究和 o3，涉及多种建模任务，均按数百项标准评分。

在BrowseComp基准中以68.9% 的成绩创SOTA，比深度研究高17.4 %；在WebArena中表现优于由o3驱动的CUA。

有网友表示，ChatGPT Agent更像是Manus 2.0。Manus刚推出时概念确实很有意思，但它太不稳定了，根本没法好好用。

很期待体验 ChatGPT Agent，看看它是否能配得上这些热度，这算是向 AGI又迈进了一步吗？

这真的太令人兴奋了，已经迫不及待想尝试了。而且我完全认同这种做法：“强大的智能体可能拥有超强能力，但同时也伴随着巨大风险。风险不仅来自恶意攻击者，还包括幻觉问题。让我们一起探索，去理解其中的深层影响吧。

团队这次更新太棒了，对此我非常期待。盼着能用起来，也期待着它会随着时间推移变得更强大。

我很欣赏你们把它交到我们手中的做法，没有等到那个遥不可及的零风险高标准才发布。在我看来，带着提醒和注意事项去信任用户，这做法非常好。

这太不可思议了！看着人工智能真的能浏览网站、完成实际任务，感觉就像科幻小说照进了现实。我已经在琢磨，这能如何为内容创作者和小企业简化工作流程了。生产力革命，从现在开始！

本文素材来源OpenAI，如有侵权请联系删除

打开APP阅读更多精彩内容