字节跳动版“Manus”实测来了!Agent时代:“大厂”VS创业公司谁能更胜一筹?

“接下来,AI(人工智能)的重点将从解决问题转向定义问题。”近日,OpenAI研究员姚顺雨在其新博文中表示,AI下半场的重点将从解决问题转向如何定义有现实意义的任务,如何有效评估AI系统的表现,“要思考‘我们应该训练AI做什么?我们如何衡量真正的进步?’”

当Agent(智能体)已成大势所趋,字节跳动近期开启了其Agent产品“扣子空间”的内测。哪怕是在邀请制度下,拥有如字节般的算力资源,服务器还是被用户的热情挤爆了,产品邀请码也成为社交平台和二手交易平台上的紧俏“硬通货”。

4月22日,在获得邀请码后,《每日经济新闻》记者第一时间进行了深度实测。实测过程中,记者发现“扣子空间”在归纳整理现有信息、制作可视化图表及网页等任务方面完成度较高,但现阶段还未能进行多模态任务,例如主动获取并分析图片、视频中的信息。

从商业化角度来看,曾经“一码难求”的AI Agent产品“Manus”已在3月末公布了用户收费细则,如今字节跳动、百度等头部“大厂”接连布局,Agent是否会带来一条清晰的变现路径?在“大厂”的生态优势和算力资源面前,创业公司打造Agent产品中的机会何在?

每经记者实测“扣子空间”

“扣子空间”既做“通用实习生”又做“领域专家”?

“太快了,没了”“求个邀请码”“爆满了”,在“扣子空间”正式开启内测后,小红书、即刻等社交平台上涌现出大批想去体验的用户,该产品的邀请码甚至在闲鱼等二手交易平台上被明码标价交易。

官网显示,“扣子空间”主打生产力全面提升、专家能力深度支持、写作模式灵活调整以及能力边界拓展延伸的优势。官网展示了市场调研报告分析、股票早报定制、生成互动式教学网站以及旅游攻略制作等16个典型应用场景。“在扣子空间里,精通各项技能的‘通用实习生’,各行各业的‘领域专家’,任你选择。”

《每日经济新闻》记者注意到,“扣子空间”具有探索与规划双模式,前者完成任务速度更快,后者则是AI规划步骤、用户可以分步进行修改任务指令。同时,“扣子空间”首批集成了高德地图、飞书多维表格、墨迹天气和Notion等MCP(模型上下文协议)服务,供用户在发布任务时自由调用。

“Agent可以做的事情更多,很多事情不限于文本交互。”一位头部大模型技术人员在接受《每日经济新闻》记者电话采访时表示,相较于Chatbot(聊天机器人),Agent可以自主地学习调用工具、处理涉及多模态的复杂任务。

在获得邀请码后,《每日经济新闻》记者第一时间就复杂旅游规划、互动型小游戏制作以及视频信息提取等任务对“扣子空间”进行了深度实测。

每经记者实测“扣子空间”

首先在旅游规划上,在提出“今年‘五一’假期,我和父母要去日本东京玩6天,想看富士山,还想吃到当地特色小吃和2家米其林餐厅。请你为我制作一个图文并茂的旅行手册”的需求后,Agent将该任务拆解为信息收集、资料整理与撰写和手册制作三步,最后耗时30分钟,交付了一个包含每日旅游线路地图、观赏地点以及天气情况的网页。

每经记者实测“扣子空间”

该网页设计风格简洁优美,但旅游攻略制定得较为笼统,例如在餐厅详细信息以及预约情况等内容上有所缺失。

每经记者实测“扣子空间”

随后,记者向“扣子空间”提交了制作一个植物科普小游戏网页的请求,一个名为“植物科普小花园”的简单互动小游戏旋即生成。小游戏页面展现了4种卡通风格的常见植物,点击每种植物即可了解其基本信息和相关小知识。

每经记者实测“扣子空间”

但美中不足的是,这些植物以卡片形式呈现,而非提示词中要求的“希望背景是一个大花园,常见植物栽种其中,呈现动态摇摆状态”。对此,一位大模型算法工程师通过微信向记者解释,对于现在能调用的MCP来说,实现这一指令太困难。“还没有给AI用的游戏制作软件。”

在视频信息提取任务上,记者注意到,“扣子空间”可以根据提示词自主寻找到B站平台上的相关视频,但暂时还无法进行视觉推理。

“大厂”入局,Agent还是创业公司能玩的游戏吗?

“要让AI真正为各行各业带来变革,Agent是必经之路。”在4月17日进行的火山引擎AI创新巡展杭州站会后,火山引擎总裁谭待在接受《每日经济新闻》记者采访时表示。

在他看来,具备能完成专业度较高、耗时较长的完整任务的能力,才能称之为Agent。“能完成打油诗、简单报告等任务的不能称为Agent。”他说:“从技术实现角度来看,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为Agent。”

一位头部大模型技术人员在接受记者电话采访时表示,从技术方面来看,目前Agent可以分为两种,即以OpenAI o3为代表的基于Agent任务训练微调的模型,以及依赖预训练能力、提示词工程和系统设计的LLM(大语言模型)系统。“Perplexity、Manus都属于后者,扣子空间大概率也是。”

在Agent的布局过程中,Claude母公司Anthropic推出的MCP成为近期国内外头部厂商的一大关注点。MCP通过统一的协议标准,使Agent能够以一致的方式接入各种本地或远程工具,降低了开发复杂度。

在4月17日的采访中,谭待表示协议统一很重要。“如果能做到统一协议,大家的应用开发就会更快,模型调用也会更智能。”

“字节跳动拥有视频、电商、本地生活、移动办公等丰富多元的应用生态体系,它去做Agent就有初创企业根本无法比拟的优势。”快思慢想研究院院长田丰接受《每日经济新闻》记者采访时表示,“因为它能调用的工具、App非常多,而初创企业需要一家家(合作方)去谈,而且就算技术上都支持MCP,也存在商业授权问题”。

既然“大厂”在Agent领域已有自己的先发优势,那么创业公司发力Agent还会有机会吗?

“当然有了。”田丰很笃定。他以近期OpenAI计划以30亿美元收购AI编程初创公司Windsurf为例,“这家公司在编程决策智能上就有很强的差异性,而且做得非常专。所以做专业、做深入,永远会是创业公司的(立身)基础”。

工信部信息通信经济专家委员会委员盘和林也通过微信向《每日经济新闻》记者表示,“大厂”虽在Agent产品上有优势,但其产品可能会难以满足垂直行业的深度需求。“现阶段的 Agent和垂直领域需求的融合难度还比较大,主要还是解决一些特定领域的问题,比如写代码。”

与此同时,记者注意到,国内外一些知名Agent已推出付费模式。例如,Manus在今年3月末宣布推出每月39美元和199美元的两种套餐。

谈及Agent未来的商业化可能性,田丰认为,现在Agent属于早期发展阶段,字节跳动等“大厂”需要打通更多工具的调用渠道,培养出一个良好的开发者生态,“直到Agent可以解决用户刚需问题,真正提高生产力、让用户有生产提效效益时,用户自然愿意进行付费”。

每日经济新闻

打开APP阅读更多精彩内容