OpenAI突发AI智能体大招，像人一样操作电脑，解放打工人神器_凤凰网科技

OpenAI突发AI智能体大招，像人一样操作电脑，解放打工人神器

智东西

01/24 11:04优质科技领域创作者来自北京

编译 | 程茜

编辑 | 云鹏

OpenAI的首款AI智能体来了！

智东西1月24日消息，今天凌晨，OpenAI CEO萨姆·阿尔特曼（Sam Altman）发起直播，发布了首款可以像人类一样操作电脑独立完成任务的AI智能体——Operator。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

打开Operator，用户只需要输入自己的需求，就可以双手离开键盘，静静等待Operator“表演”，订票、买日用品、填写表格等诸多任务能被迅速搞定。

用户可以实时查看它的进度，并随时介入。遇到需要用户的付款信息、家庭住址这些隐私信息，Operator也会主动暂停让用户接管操作。

从今天开始，Operator将向美国ChatGPT Pro用户提供。未来，OpenAI计划把Operator扩展到Plus、Team和Enterprise用户，并将这些功能集成到ChatGPT中。

阿尔特曼将Operator的发布称作是：“进入Level 3的开始。”

他还在直播中预告，Operator是OpenAI首批智能体之一，他们将在未来几周和几个月内推出更多智能体。

一、解放双手，搞定手写list到送货上门、全额退款、许可证更新

用户只需要描述任务，Operator就可以完成后续的步骤。用户可以随时选择接管远程浏览器的控制权，遇到登录、付款详细信息或输入验证码等涉及用户隐私的环节，Operator会主动要求用户接管。

用户在纸上记录的日用品购买list，可以直接拍照上传发送给Operator，它就会自动识别任务，然后执行一系列的购买操作。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

此外预订时，遇到需要确认的时间点，Operator也会及时询问用户在获得反馈后执行下一步操作。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

Operator还能帮助用户完成订单的全额退款。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

为用户检索合适的露营地。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

用户可以通过为所有站点或特定站点添加自定义说明，例如为Booking.com上的航空公司设置首选项，Operator在执行相应操作时就会优先考虑用户的设置。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

此外，Operator允许用户保存提示以便在主页上快速访问，例如在订购日用百货等重复性任务。与在浏览器上使用多个选项卡类似，用户可以通过创建新对话让Operator同时运行多个任务，例如在订购桌子的同时询问用户聚会需要的食物类型。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

二、底层模型CUA，自主完成输入、单击、滚动

Operator由新模型Computer-Using Agent（CUA）提供支持。CUA通过强化学习将GPT-4o的视觉功能与高级推理相结合，经过训练可以与人们在屏幕上看到的按钮、菜单和文本字段等图形用户界面（GUI）交互。

具体的操作方式包括，查看浏览器（通过屏幕截图）和与浏览器交互（使用鼠标和键盘允许的所有操作），这使能够在浏览器上执行操作，无需自定义API集成。

CUA的具体操作通过集成感知、推理和操作的迭代循环运行：

感知：计算机的屏幕截图将添加到模型的上下文中，从而提供计算机当前状态的可视化快照。

推理：CUA使用思维链推理后续步骤，同时考虑当前和过去的屏幕截图和操作。这使模型能够评估其观察结果、跟踪中间步骤并动态适应，从而提高任务绩效。

操作：执行单击、滚动或键入操作，直到确定任务已完成或需要用户输入。虽然CUA会自动处理大多数步骤，但会寻求用户确认敏感操作。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

如果在操作中遇到问题，Operator可以利用其推理能力进行自我纠正。且如果需要帮助，该智能体就会将控制权交给用户。

虽然CUA仍处于早期阶段并且存在局限性，但它在WebArena和WebVoyager这两个关键的浏览器使用基准测试中，在OSWorld上实现38.1%的完全计算机使用任务的成功率，在WebArena上实现58.1%的成功率，在WebVoyager上实现87%的基于浏览器的任务成功率。

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

三、三层保障，限制Operator操作

为了确认Operator的安全性，OpenAI设置了三层保护措施。

首先，Operator经过培训，以确保使用它的人始终处于控制之中，并在关键点要求用户输入。

接管模式：Operator在浏览器中输入敏感信息（如登录凭证或支付信息）时要求用户接管。在接管模式下，Operator不会收集用户输入的信息或对其进行屏幕截图。

用户确认：在完成任何重大操作（例如提交订单或发送电子邮件）之前，Operator应请求批准。

任务限制：Operator接受过拒绝某些敏感任务的培训，例如银行交易或需要高风险决策的任务，例如对工作申请做出决定。

监视模式：在特别敏感的站点（例如电子邮件或金融服务）上，Operator需要密切监督其操作，使用户能够直接捕获任何潜在的错误。

其次，OpenAI简化了Operator管理数据隐私的过程。

训练选择退出：在ChatGPT设置中关闭“为每个人改进模型”意味着Operator中的数据不会用于训练其模型。

透明的数据管理：用户可以在Operator设置的Privacy部分下一键删除所有浏览数据并注销所有站点。Operator中的历史对话记录也可以一键删除。

最后，OpenAI建立了防御措施，抵御可能试图通过隐藏提示、恶意代码或网络钓鱼尝试来误导Operator的网站：

谨慎导航：Operator旨在检测和忽略提示注入。

监控：专用的“监控模型”会监视可疑行为，如果出现问题，可以暂停任务。

检测pipeline：自动化和人工审查流程持续识别新威胁并快速更新保护措施。

此外，OpenAI将Operator设计为拒绝有害请求并阻止不允许的内容，其审核系统会对重复的违规行为发出警告甚至撤销访问权限，并且集成了额外的审核流程来检测和解决滥用问题。

结语：Operator处理复杂工作流程仍有局限

Operator目前处于早期研究预览阶段，在面对制作PPT、管理日历等复杂任务方面它的表现并不好，但Operator目前已经能独立完成诸多用户日常会遇到的任务。下一步，OpenAI计划很快在API中公开为Operator提供支持的模型CUA，以便开发人员可以使用它来构建自己的计算机使用代理，同时会继续提高其处理更长、更复杂工作流程的能力。

此前谷歌、Anthropic、智谱AI都发布了类似支持自动检索并跨平台操作的智能体，这类智能体的出现进一步降低了用户与计算机的交互门槛，用户可通过简单指令让智能体完成复杂任务，无需掌握专业技能或操作知识。

打开APP阅读更多精彩内容