头图由豆包生成,提示词:未来 城市
从ChatGPT 以惊艳之姿闯入大众视野,到DeepSeek惊艳全球,人们不断惊叹于大语言模型的强大能力;紧接着,2025 蛇年春晚舞台上,机器人扭秧歌的精彩表演又掀起一阵科技狂潮。从智能对话到灵活起舞,这背后都绕不开一个关键领域 —— 具身智能。在科技飞速迭代的当下,具身智能如何突破发展瓶颈?又将如何重塑我们的未来生活?
让我们翻开清华大学全球创新学院院长、自动化系教授兼博导刘云浩的新书《具身智能:人工智能的下一个浪潮》,探寻其中的奥秘。
大模型如何“接地”
最近,大语言模型的热潮席卷了整个技术界,也迅速与具身智能领域紧密结合。有人形象地说,引入大模型就像是给机器安装了一个新的大脑,似乎只要将其简单地嵌入,就能赋予机器全新的生命力。
先来说“加 buff(增益)”的地方。
首先,大语言模型能够帮助智能体与人类以自然语言进行交流。人类能够直接说出任务要求,大模型能够对此进行编码并得到更加方便机器进行处理的语义表示形式。同样,大模型也能够根据智能机器当时的状态生成自然语言,反馈给人类。这正如我们所看到的Figure 01 机器人与人类用户对话交流并执行任务的过程。
其次,大模型能够提供一些解决问题的“常识”,或者说高层次的语义指导。例如,如果我们问它:“如何把大象装进冰箱?”大模型可能会输出:“拉开冰箱门,把大象放进去,关上冰箱门。”我们姑且不论这个方案的可行性如何,大模型确实是能够将解决问题的完整过程拆解成多个子步骤并且给出一个执行方案的。因此,大模型具备成为优秀的行动规划器的潜力。
最后,多模态大模型,例如预训练的视觉—语言模型(Visual-Language Models,VLMs),能够为智能机器进行多模态感知和认知提供更为通用的选择。例如,CLIP 能够将视觉信息和文本映射到统一的表征空间,使得机器能够直接以视觉数据作为输入。3D-VLA 提出了一种新的三维视觉—语言—动作模型,它通过引入一个生成世界模型来无缝连接三维感知、推理和动作。与现有的基于 2D 输入的 VLA 模型不同,3D-VLA 更加贴近现实世界的 3D 物理环境。
当然,除了生成自然语言,大模型在未来也是能够生成可用的代码的。Code as Policies 通过训练大语言模型来为机器编写策略代码。给定自然语言的指令,大模型生成一段代码,然后这段代码就可以在智能机器上运行,持续接收传感器的输入并输出行动指令。有研究证明,这种生成代码的方式比直接生成行动规划要更好。VoxPoser 也是使用了大模型来生成代码,然后这个代码与前面提到的视觉—语言模型进行交互,为后续的动作规划提供信息。
大模型当前遇到的挑战
接下来我们说说当前遇到的挑战。大模型的一个显著缺陷就是缺乏现实世界中的经验。还是刚才说的,如果我们给大模型一个“把大象装进冰箱”的任务,它可能会正儿八经地生成一段逻辑上合理的指导,却不会思考这样的步骤是否真的能实现。
为解决这一问题,谷歌的一项研究SayCan 提出使用预训练技能,为模型提供现实世界的知识基础,这样大语言模型输出的内容就被约束在这些预训练技能对应的范畴内。这种方法有点类似于我们为大模型准备好了很多能够执行的 API(应用程序编程接口),然后大模型通过调用它们完成行动。在这种配置中,智能机器充当模型的“手和眼”,执行具体任务,而大语言模型则负责提供关于任务的高级语义指导。GLiDE 尝试在大模型的语义和智能机器在物理世界的行动轨迹之间建立关联,这个过程使用了人类的演示数据,这样系统就能够将自然语言的任务指令翻译为机器的具体行动序列。
刚才讨论的一些方法很多都是利用其他应用领域预训练好的大模型,因此需要进行额外的“接地”操作,即从大模型输出的符号(语言、代码等)转换到物理世界的行动。而谷歌的 RT 系列大模型,通过端到端的训练一步到位输出行动序列。在 RT—1 中,谷歌科学家首次提出一个模型类,叫作 Robotics Transformer(RT)。RT—1 的设计思路秉承了大模型“力大砖飞”的理念,也就是说,模型容量大,可以吸收大量的各类数据,也可高效地泛化。
之后的RT—2 似乎不满足之前的训练力度,于是将基于互联网规模数据训练的一个视觉—语言模型直接整合到端到端机器人控制中,进一步提升模型的泛化能力。
而2024 年新推出的 RT—H 开始走分层路线,提出行动层级(action hierarchy)的概念,将复杂任务分解成简单的语言指令,然后将这些指令转化为机器人的行动,以提高任务执行的准确性。
例如,以“盖上开心果罐的盖子”这一任务和场景图像作为输入,RT—H 会利用视觉—语言模型预测语言动作,如向前移动手臂和向右旋转手臂,然后根据这些语言动作,输出具体的机器行动。这个过程允许人类的干预,人 类的修正也能够帮助机器进行学习。
可以这么说,大模型作为目前人工智能领域的一个方法论,必将成为具身智能发展的重要推动力。我们有理由相信,不久的将来,具身智能体将具备执行通用任务的能力和强大的学习能力,它们将能够更深入地理解我们的世界,并以前所未有的方式参与其中。
至少,在回答“如何把大象装进冰箱”这一问题时,一个“充满人性”的具身智能体可能会这样回答:“首先,我们需要确认大象是否有意愿被关进冰箱里;其次,考虑到大象的体量,我们可能需要一个特制的大型冰箱;最后,确保在关上冰箱门之后,大象拥有足够的空间和舒适的环境。”
DeepSeek—— 开启AI平民化新时代
2025 年的科技圈中,如果有谁还没听说过 DeepSeek, 那么就等于被时代抛在身后了。这款由中国团队“深度求索”(DeepSeek)研发的大语言模型,凭借“技术突破、低 成本与开源”的组合策略,迅速成为全球 AI 领域的新焦点。
DeepSeek 之所以能在短时间内爆火,首先要归功于它对 AI 技术平权的推动。DeepSeek v3 仅用 GPT—4 大约十分之一的训练成本,就达到了与后者相当的性能。这种“以小博大”的低成本模式为更多中小型团队带来了希望,让AI 从原先的“巨头玩具”转变成“大众工具”。DeepSeek R1 公布后,不少研发团队受其启发,纷纷借鉴 R1 的技术路线,以更易负担的成本研发大模型,就好像“拼多多”在电商领域用低价策略打开市场一样,DeepSeek 同样凭借开源和成本优势,迅速拉近了普通人与尖端 AI 的距离。
除此之外,DeepSeek 的开放生态也产生了强大的“滚雪球效应”。通过开放核心技术,DeepSeek 为全球开发者提供了协同改进模型的机会。这种与维基百科类似的模式不仅加速了技术迭代,而且还允许企业在本地或私有云环境中部署自己的 DeepSeek 实例,从而降低对 OpenAI 等厂商的依赖。在这种“你中有我、我中有你”的生态里,新功能和新技术能够快速孵化,最终反哺整个 AI 产业。正因如此,DeepSeek v3 和 R1 一经推出,各路服务商便纷纷宣布对其进行集成或给予支持。
当然,资本市场对 DeepSeek 的追捧也为其知名度的提升推波助澜。自 2025 年 1 月开始,AI 概念股一路飙升,中证软件指数更是在短短数周内上涨 23.1%,与 DeepSeek 相关的公司获得了资本的“热捧”。更具戏剧性的是,DeepSeek 在 2025 年 1 月底因过度火爆而遭遇了国家级对手的 DDoS(分布式拒绝服务)攻击。有人调侃,这是对 DeepSeek 实力的另一种“官方认证”,更进一步印证了它引发的巨大影响力。
DeepSeek 的崛起并不是一次简单的技术升级,而是一场可能改变行业规则的“地震”。传统大模型训练往往动辄耗资数千万美元,而 DeepSeek v3 采用 FP8 混合精度训练等创新手段,将单次训练成本压到约 550 万美元,让人们第一次看到了“以经济舱价格享受商务舱服务”的可能。与此同时,DeepSeek 的全面开源也打破了闭源模型长期以来的垄断地位,为医疗、教育等垂直领域的中小公司带来“二次开发”的机遇,从而催生了一场类似于安卓系统之于手机行业的变革。更引人注目的是,DeepSeek R1-Zero 还是首个完全基于强化学习训练的大模型,这意味着它能够像小朋友学骑自行车那样,通过试错完成自我迭代和进化,逐渐摆脱对人工标注数据的严重依赖。
随着DeepSeek 的步步崛起,中美之间的 AI 竞争格局也受到了影响。美国企业更倾向于依赖 GPU 芯片等硬件优势,以大算力硬扛大模型的方式来开拓技术前沿阵地。相 比之下,中国团队则更加注重模型压缩、算法优化等“以巧取胜”的策略,这种“技术瘦身”绕过了对高端算力的 严重依赖,也拓宽了 AI 落地场景的广度。DeepSeek 的成功证明,不总是需要顶尖算力,通过工程和算法创新,也可能在 AI 领域取得突破。与此同时,生态模式的分歧也日益明显。如我们在“大模型的困局”中所述,科技巨头大多偏向闭源,牢牢掌控技术话语权,但 DeepSeek 所倡导的开源生态,吸引着全球众多开发者加入“技术共同体”。这种 自下而上的“群众路线”不仅能不断丰富 AI 应用场景,还可能瓦解传统巨头建立起来的护城河。这种竞争态势的转 变,本质上是基础理论创新与应用落地两种发展路径的碰 撞,而中国在智能制造、智慧城市等领域的深厚产业基础, 正在为 AI 技术提供得天独厚的试验场。
当我们站在AI 开始全面走入普通人生活的开端展望未来时会发现,DeepSeek 依然有漫长的道路要走。它目前的重点在于文本处理,未来可能会扩展至图像、视频等多模态领域, 向真正的“全能型 AI 助手”进化。同时,通过边缘计算技术, DeepSeek 或许能在智能手机、AR(增强现实)眼镜等设备上实现离线翻译、实时 AR 导航等功能,让更多人真正体验到“AI 飞入寻常百姓家”的便利。更深远的影响或许在于,以DeepSeek 为代表的开源大模型可能像云计算重构 IT 基础设施那样,通过开源社区构建 AI 时代的“水电”网络,让开发者如同调用电力般便捷地使用 AI 技术。
前进的道路上依然存在不少挑战。数据安全与隐私保护的冲突仍需谨慎应对,国际政治环境带来的风险也不容小觑。但就像蒸汽机拉开工业革命的大幕,DeepSeek 所代表的 AI 平民化趋势,很可能正在开启智能时代的大门。
DeepSeek 的崛起不仅仅是一家中国企业的逆袭之路, 更是 AI 技术实现民主化的重要里程碑。它用开源去挑战垄断,用低成本推动普惠,用工程智慧弥补算力短板,而这场“破圈”革命带来的意义,恰如网友所戏称的“过去 AI 是‘神仙打架’,现在终于轮到凡人修仙了”。我们都将是亲历者与见证者。