百度打的好算盘:
让应用依附百度大模型
作 者 | 有 叔
中国互联网曾经历过C2C(Copy to China)的阶段,即借鉴海外创新,把美国的某种模式搬到中国来。但进入移动互联网时代之后,中国势力弯道超车,海外反而会借鉴中国的成功经验,成了2CC(to China Copy)。
生成式人工智能应用横空出世之后,AI大模型的发展之路中外也有所差异:国外大模型过分注重“聪明程度”,却忽略了用户的使用成本以及应用体验,导致新增用户的趋势在收缩;相比于美国注重算力基础设施的供给,中国市场更加贴近用户和市场,推出了多款与行业结合的AI应用。面对人工智能的下一个战场,中外巨头都在摩拳擦掌。
“不要卷模型,要卷应用”
“过去24个月,AI行业最大的变化是大模型基本消除了幻觉,回答问题的准确性大幅提升。让AI变得真正可用、可信赖。” 在近期举办的百度世界2024大会上,百度创始人李彦宏以“应用来了”为主题进行了演讲,在他看来,AI应用的大规模落地正在成为现实。
10年,在AI上砸了千亿,作为国内最早深耕AI的企业,百度的一举一动,都是国内AI大模型的风向标。2023年,ChatGPT火爆,AI狂飙。当国内还在聚焦百模大战时,李彦宏就提出了“不要卷模型,要卷应用”。他认为,大模型不应该只向内卷算力、卷参数,更应该向外卷场景、卷问题,才能充分释放大模型潜力和价值。
李彦宏认为,中国AI的发展道路,是由应用来驱动的,而智能体,则是他最看好的AI原生应用发展方向。
所谓“智能体”,是能够自主感知环境、做出规划、执行任务的智能实体。如果用一个比较直观的公式来表示,智能体=大模型+规划+反馈+工具使用。和传统的单体大语言模型这个“黑箱模型”相比,智能体的优势在于能更容易理解和分析不同组件如何对系统的整体行为做出贡献。
英雄所见略同,2023年11月,比尔·盖茨在其个人网站上撰文表示:“智能体不仅会改变我们与计算机的互动方式,还将颠覆软件行业,带来自图形用户界面诞生以来最大的计算革命。”他称智能体将会像过去的Android、iOS和Windows一样,成为下一个平台。
扎克伯格也预测,未来智能体的数量可能会达到数十亿,甚至超过全球人口总数。今年 3 月,斯坦福大学教授吴恩达指出,他们在研究中基于 GPT-3.5 构建的智能体工作流在应用中表现可以比 GPT-4 要好,基于GPT-4 构建的智能体工作流效果当然还可以更好。他认为,AI 智能体将在2024 年推动 AI 的大规模进步,甚至可能超过下一代基础模型所带来的影响。
11岁的小学生,也能参与创造智能体
黄仁勋在2024年世界政府峰会上被问及人们应该学习什么时,他回答,“因为我们的工作是创造计算技术,使得没有人需要传统意义上的‘编程’,让世界上的每个人都成为程序员。”
智能体最明显的特点便是使用门槛足够低,谁都能上手。比如在百度的文心智能体平台上,有11岁的小学生创造的智能体,通过搜索和其他渠道分发出去。在大模型幻觉消失之后,越来越多的人靠自然语言提示词就可以做出很有用的智能体。
尽管智能体降低了用户的操作门槛,但它的天花板又足够高,可以做出功能非常强大的应用。多个智能体的协作,还可以解决更加复杂的问题。
比如,公司类智能体对企业传统官网能实现迭代升级。以比亚迪的智能体为例,不仅涵盖了公司介绍、产品图片和参数展示、线下门店位置等官网基本功能,还注入了主动推荐、及时响应、一对一服务等AI能力。比亚迪的官方智能体上线后,销售转化率提升119%。
举个例子,智能体可以准确理解并推荐“性能均衡”的车型,并展示产品图片:
在个人的工作生活中,或多或少都会遇到各类法律相关的问题,但不是每个人都能第一时间找到专业的律师来帮自己支招。这时,法律行业智能体“法行宝”就能派上用场。
假设在发生了交通事故纠纷,法行宝给出了四个步骤的指导,先是保留相关证据,请求交管部门去调解,如果调解失败,可以再提起民事诉讼、申请法院的强制执行。如果需要计算事故损失和赔偿金额,可以输入详细信息,法行宝的“赔偿计算器”就能帮你计算。不仅如此,法行宝可以帮你写一封起诉状:
工具类智能体“自由画布”则能让用户可以在一块类似“画布”的界面上自由拖拽文档、音视频等富媒体素材,迅速生成多模态内容。李彦宏称其为是“立即可用的现货”。它打通了公域与私域资料的限制,比如行业分析师可以使用它来撰写研究报告,文档、视频、音频等不限格式的文件都可以一键摘录到自由画布。
AI助理或将成为移动互联新入口
法律助手、创作助手,以智能体作为切口,国内互联网厂商找到的这个AI应用方向,在大洋彼岸也得到了呼应,美国的头部厂商最近也正争先推出AI助理产品。
AI助理(AI Agent)是一种能够感知环境、进行决策和执行动作的智能实体,具备通过独立思考、调用工具去逐步完成给定目标的能力,既能为C端提供个性化应用,也能为B端提供降本增效方案。对于普通用户而言,AI助理最核心的功能是AI自主操作手机,辅助完成复杂推理任务。
OpenAI正准备推出一款代号为“Operator”的全新AI助理产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,首先作为研究预览版和开发工具推出,届时将为开发人员开放API接口。
OpenAI首席执行官阿尔特曼表示,“我们将拥有越来越好的模型,但我认为下一个重大突破将是AI助手。”站在OpenAI的角度,其在商业化进程中面临着越来越大的压力, ChatGPT渐进式的改进可能无法吸引用户支付更高的价格。高管急切需要一款突破性产品,以证明对AI开发的巨额投资是值得的。
与此同时,微软近期低调开源了AI工具OmniParser,其可帮助用户创建个性化智能体,以操作个人计算机;10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,支持OpenAI最新模型o1,具备自主学习能力,可自动执行跨平台复杂业务。
谷歌计划在12月预览其大型动作模型“Project Jarvis”,该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。
苹果选择将Siri与ChatGPT集成,实现更智能的人机交互,另有网友发现苹果已经默默发布了Ferret-UI的两个实现版本(分别基于Gemma 2B和Llama 8B),这是苹果今年5月发布的一个可让AI理解手机屏幕的技术。
在硬件厂商言必称AI的时代,AI助理或成为终端智能化的突破口。更具有想象空间的是,中外巨头都在押注的AI助理或将掌握移动互联新入口。因具备较强交互性以及便利性,AI助理有望打通原先同个终端不同App之间的天然壁垒,那样的话,流量分发格局也必将重塑。
无论是百度、KIMI还是通义、豆包更或是ChatGPT、苹果、谷歌、微软,最终谁将掌握新的移动互联网入口,拿到未来船票,就看谁的应用更智慧、更好用。
未来抢夺AI移动平台超级入口的战争刚刚开始,先发优势与后发优势谁才有真的优势,就看谁率先打造出AI超级应用平台,这个平台不是单一应用功能,而是无所不能的超级综合体。
未来,拭目以待。