智元机器人合伙人姚卯青
凤凰网科技《浪潮》出品
作者|董雨晴
摘要:一台机器人,“聪明”与“灵活”同样重要。但现阶段,“聪明”的机器人还不多,本质上行业还没有找到最佳的技术解决方案。智元发布的首个通用具身基座模型,有望在大规模落地的同时,提升机器人在各种场景下执行任务的准确率。
“稚晖君”又刷屏了,这一次是因为其参与创办的科技公司智元机器人发布了行业首个通用具身基座模型。
这意味着什么?简单来说,今天的机器人还很难像真正的人类一样行动,是因为欠缺对真实物理世界的理解,这个具身基座模型就为解决这一问题而来。通过架构上的创新,其可以仅通过让机器看视频,就让机器人学会人类掌握的部分技能。
根据智元团队的测试,在通用模型的助力下,机器人执行任务的平均成功率可提升32%。目前智元旗下机器人GO-1在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。
一台机器人,“聪明”与“灵活”同样重要。这也是不同机器人公司押注的路线,要么在下半身上有很强的灵活性,可以翻山越岭,替代人类的体力活;要么在上半身上拥有足够的智慧,可以做到许多真实人类能够执行的细致任务,而智元机器人自成立之初就希望做到全都要,其先后发布了远征、Genie和灵犀三大产品线。
其中,远征主要是面对商用场景的双足人形机器人远征A1、A2系列;Genie主要是面向通用具身操作的轮式双臂机器人G1,以及一条用于拓展家用场景的小型人形机器人灵犀产品线;灵犀产品线除了此前发布的X1,还有刚刚发布的搭载情感计算引擎的双足智能交互人形机器人灵犀X2,集齐运动、交互、作业三智能。今天,一条X2机器人骑自行车的视频引发了网友的围观。
机器人赛道进化的速度不仅超出普通大众的想象,甚至也超出了从业者的预估。
去年,智元机器人原本规划当年度出货量或为300台。2025年,这一数字有望达到数千台。
自2023年2月创立至今,智元机器人完成了多轮融资,估值超70亿元。自此团队也开启了马不停蹄的研发工作,碰到密集的开发期,加班到凌晨也是常有的事情。其创始人之一的彭志辉(人称:稚晖君)毕业于电子科技大学信通学院,因华为天才少年以及“B站野生钢铁侠”身份而广受关注。另一合伙人,同时也是智元机器人Genie业务部总裁、具身智能研究院执行院长的姚卯青,毕业于清华大学电子工程系,曾在Waymo、蔚来汽车等公司担任重要技术职位。
图|彭志辉
在智元机器人发布行业首个通用具身模型之际,凤凰网科技《浪潮》与姚卯青进行了一场对话,我们聊到了智元机器人的技术优势,以及对机器人赛道发展的思考。谈及未来,姚卯青认为,五年之内,人形机器人必然会走入家庭。
以下是凤凰网科技和姚卯青的对话,在不改变原意的情况下,经编辑发布:
谈人形机器人赛道爆发:考察团络绎不绝,销量翻了几倍
凤凰网科技:今年以来,人形机器人行业的关注度非常高,你有没有更具体的感受?
姚卯青:感受非常切身。一方面,民营企业座谈会邀请了行业内的优秀企业家参加,具身智能首次写入了政府工作报告。另一方面,从从业者角度看,今年春节之后来我们公司交流考察的考察团以及客户络绎不绝,明显比去年更加火爆。
凤凰网科技:过去投资人普遍觉得这是一个很长的赛道,但现在可能觉得赛道没有那么长了?
姚卯青:是的。
凤凰网科技:这对我们的发展规划有什么影响吗,比如大模型发布的时间有没有提前?
姚卯青:大模型的发布原本就在我们的规划之中。从去年九、十月份开始,我们就承诺要开源百万数据,并计划在拥有百万数据后训练大模型并对外开放。从公司发展的节奏来看,行业关注度的提升无疑是一个利好因素,吸引了更多行业内和传统行业的客户来购买产品和研发能力。
凤凰网科技:你现在每天的工作节奏是怎样的?
姚卯青:虽然大家最近都在倡导不加班,反加班文化,但是作为一家创业公司,我们的工作节奏确实比较紧张。每天早上 9 点半打卡,但下班通常要到晚上十一二点,研发团队在忙碌的时候,加班到凌晨也是常有的事。
凤凰网科技:去年大概在8月,智元设定了一个 300 台的目标,而今年一下子变成了几千台,这个数据变化非常大。
姚卯青:数据一直在变化,尤其是上个月和这个月,很多客户来咨询产品,其中不少已经转化为销售线索甚至订单,感受非常明显。
凤凰网科技:有没有一些超出预期的客户出现?
姚卯青:有的。最明显的是一些地方政府加大了对这一领域的投入力度和节奏,不仅是北京、上海这样的特大城市,一些一线城市和二线城市也开始效仿,出台相关政策引导具身智能技术的发展。此外,海外市场也非常火热,美国、日韩等国家的客户络绎不绝,他们所在的发达国家人力成本较高,机器人替代人的投资回报率容易证明,对这一事物的接受度也相对较高。
凤凰网科技:这些客户前期购买机器人回去的核心诉求还是偏研究更多一些?
姚卯青:目前这个阶段,很多客户购买回去后,主要是基于我们的预训练能力进行二次开发。
凤凰网科技:智元机器人能够如此大规模地铺开,与你过去在车企的一些经验有关。你之前也提到过,虽然具身智能和自动驾驶在某些方面有相似之处,但并不完全一样。具体是哪些不一样?
姚卯青:软件设计方面,自动驾驶更多是在高速行驶状态下实时感知周围环境,以最安全、高效的方式通行,因此对安全的容忍性和模型推理时延的要求非常高。
而机器人面向的多是工业和服务业中的低速场景,允许以较低频率进行模型推理,这使得我们可以使用一些大模型技术。硬件方面,机器人的供应链和生产工艺成熟度远不及汽车,汽车是一个分工明确、上下游清晰的成熟产业,研发模式和生产管理体系都非常成熟。而机器人作为一个新兴事物,需要在不成熟的产业链中寻求兼容,同时平衡快速创新和量产稳定性,这其中有很多需要权衡的地方。
凤凰网科技:在供应链不成熟的情况下,你们会选择在某些方面进行自研?
姚卯青:我们在供应链上有不少自研部分。软件方面,我们开源了中间件、操作系统、AimRT 等工作,还完全自研了具身智能的大脑和发布的大模型。硬件方面,我们自研了核心的关节模组,包括电机、减速器、编码器等,这些决定了机器人的扭矩密度、耐久性、尺寸和重量等关键性能。此外,我们还在研发高自由度的灵巧手,目前有多款在早期打样阶段。
凤凰网科技:像灵巧手这样的研发,是通过内部搭建团队来完成的吗?
姚卯青:我们通过内部招聘搭建团队,吸引了一些行业内的优秀专家加入。
凤凰网科技:今天车企又纷纷下场做人形机器人了,这对智元会有什么影响?
姚卯青:车企的加入是一个好事。他们人才和资金充裕,可以加速产业链和供应链的成熟。同时,大家齐头并进,能够探索不同的应用方向和技术方案,促进整个技术、产品的迭代和收敛。
谈中美具身智能的竞争:中国部分领先,AI方向人才非常紧张
凤凰网科技:中国在具身智能人才储备方面够吗?
姚卯青:目前来看,人才储备基本够用,但在具身智能 AI 领域的顶尖人才比较稀缺。这一领域相对较新,学校培养的人才难以直接满足工业级 AI 产品的研发需求,需要在工业界有良好的机器人硬件基础才能进行落地研发。中国在结构、电气工程师方面储备雄厚,但在具身智能 AI 方向的人才竞争还很激烈。
凤凰网科技:像这样的顶尖人才在全球范围内也是有限的?
姚卯青:顶尖人才确实不多,他们涉及模仿学习、多模态大模型、真机强化学习和仿真技术等关键技术,全球范围内非常有限。
凤凰网科技:友商最近也在加码这块,对人才的竞争肯定会更激烈,但有一部分人才可能还是会选择留在大模型行业,他们可能不一定会转向硬件行业。
姚卯青:确实是,因为大模型发展的还不错。
凤凰网科技:对他们来说,大模型行业离盈亏平衡更近,或者说落地应用的前景更清晰。
姚卯青:大模型已经是一个有千万用户天天使用的产品了,虽然盈亏平衡还未快速实现,但产品可用性已经比较成熟。
凤凰网科技:所以在和大模型这样的行业竞争人才时,智元有什么优势?
姚卯青:一方面,具身智能是一个新兴的技术方向,有广阔的发展空间,相比之下,大语言模型的技术创新相对有限。另一方面,智元在行业内处于头部领先地位,未来实现创新的可能性更大。
凤凰网科技:中美在具身智能方面存在差距吗?
姚卯青:中美在具身智能方面的差距比其他领域要小,甚至中国在某些方面是领先的。
凤凰网科技:比如在哪些方面?
姚卯青:比如在应用场景方面,中国拥有更多样的应用机会,尤其是工业制造业中任务明确、场景结构化的部分,这些场景更容易先落地。中国作为制造业大国,在这方面具有明显优势。
凤凰网科技:智元的融资规模和速度已经领先于行业,你机器人行业长期对资金的需求还是会很强吗?
姚卯青:这个赛道确实比较烧钱,一方面要大规模生产机器人,另一方面要像 AI 公司大模型一样投入大量算力训练模型。智元目前在中国的人形机器人融资排在第一位,但与一些车企的现金储备相比,资金规模还不算多。因此,我们会在资本市场保持开放状态,一方面努力实现盈利和盈亏平衡,另一方面根据市场情况动态调整,保持安全的现金流。
凤凰网科技:长期来看有没有一个盈亏平衡的目标?
姚卯青:我们内部希望在 2027 年或 2028 年左右达到盈亏平衡。今年我们的收入预计会有比去年数倍的增长,研发效率和费用控制也会更加精细化,所以到 2027 年甚至 2026 年实现盈亏平衡是很有希望的。机器人行业相对而言比较新,毛利率比现在的汽车行业要好一些。
谈行业首个具身大模型发布:机器人走入家庭迈出关键一步
凤凰网科技:智元今天发布了行业首个具身大模型,你觉得对于行业来说它具有什么样的意义?
姚卯青:过去大家都在讲具身大模型,但真正用大规模数据去训练,自研一个几十亿参数的具身模型,这件事此前还没有人完成。如今我们率先实现了这一目标,大规模量产了机器人,采集了高质量的真机数据,形成了行业内独一无二的高质量数据集。不仅如此,我们还自研了模型来训练操作技能,并且在架构上进行了创新。过去一两年大家关注的 VLA (具身智能大模型)架构,我们在其基础上加入了Latent Planner(隐式规划器)的动作空间概念,形成了新的 ViLLA (Vision-Language-Latent-Action)架构,使模型能够利用更多数据,提升训练效率和成功率。
凤凰网科技:所以大家说这个模型可以用人类视频来学习,它实际上跨越了一个多大的门槛?
姚卯青:这是一个非常重要的突破。以往机器人的策略模型需要使用特定机器人采集的数据来训练,而我们现在引入的Latent-Action Model(LAM),能够学习通用的动作表达,不受特定机器人形态的限制,甚至可以学习人类的动作。它从各种数据中学习通用的运动表达,针对特定机器人,只需在通用表达的基础上添加一个显式的专家模块(MOE)来解码成对应的运动控制。
凤凰网科技:最初是怎么想到这个技术路线的?
姚卯青:最初是受到了生成式模型的启发。生成式模型中的变分自编码器(VAE)通过压缩和解压缩数据来学习紧凑的表征方式,例如对图片进行处理时,它可以去掉冗余信息,实现高效压缩。我们认为动作也可以用离散的元素排列组合来表示,于是训练了一个关于动作表达的 CodeBook(码本)。我们从今年年初开始进行这方面的测试,逐步发现了准确率的显著提升。
凤凰网科技:在这个过程中会不会有一些技术难点?
姚卯青:当然有。AI 开发涉及算力、算法、数据等多个要素,对于机器人的 AI 来说,还需考虑机器人硬件本体。算力方面,需要机器人公司有一定的资源投入;算法方面,市场上现有的算法在数据兼容性、效果泛化性和鲁棒性上存在欠缺,有些甚至出现过拟合现象;硬件方面,大规模量产机器人并达到高质量品控和工业级标准是一个巨大的挑战,包括不同机器之间的一致性,以及每台机器下线后的传感器标定、时间同步等专业校准工作。不过,我们团队在车规级自动驾驶方面有着深厚的经验,借鉴了其工业级工程基础,成功实现了机器人量产和高效数据采集。
凤凰网科技:能举一个具体的例子吗?
姚卯青:在数据采集早期,我们没有进行严格的闭环验证,导致算法使用数据时发现很多不符合预期的问题,比如采集的节拍不符合要求,机器人机械臂的轨迹不自然,或者机器人相机的视野不科学等。为了解决这些问题,我们加快了从数据到模型研发的闭环效率,通过自动化方式触发模型训练验证,在更短的时间内对新的采集任务进行质量反馈。
凤凰网科技:你们之前还在上海建了一个数据采集工厂,为什么这么认真对待数据采集这件事,内部会有一些分歧吗?
姚卯青:内部确实有不同的声音。有人质疑是否真的需要真实数据,认为在仿真环境里就可以训练,也有人对数据量和机器人采集规模提出疑问。但最终我们分析认为,机器人操作在仿真环境中有局限性,真实数据的价值非常高。同时,我们也对数据量进行了调研,发现机器人数据量远小于大语言模型,要达到相当规模,可能需要几千万到一亿条短任务数据。基于这些分析,我们决定坚决投入,并且参考了国外友商在数据采集规模上的规划。
凤凰网科技:看上去智元走了一条非常难的路线,业内有时候基于自身的优势,可能会着重突破机器人的上半身或者下半身,但智元一开始的定位就是全部都要做,这是为什么?
姚卯青:智元机器人的使命是以通用机器人实现无限生产力,所以我们认为必须要走这条路,必须要解决这些问题。大规模部署机器人一定是一个像汽车一样有着严格质量标准的量产产业,这要求我们学会整套的质量规划、管理和测试流程。我们不仅要关注细节,还要从整体上把控,确保机器人在实际生产和服务场景中产生价值。
凤凰网科技:现在会着重解决哪些场景的应用?
姚卯青:短期内,我们会先解决一些物体转移和搬运的场景,比如在工厂里进行物料的上下料转移、搬运,以及在零售场景中进行物料上架、取货等操作,这些是我们认为可以率先攻破的应用场景。
凤凰网科技:提到工业场景,会让我们想起一个业内流传的观点,人形机器人不一定非要造得像人,你认可这个说法吗?
姚卯青:从产品角度讲,作为一家创业公司,我们不可能为每种场景单独开发一个机械,投入产出比不允许这样做。所以我们只能设计和生产有限种类的机器人,那么什么样的形态可以覆盖最多的功能和场景呢?我们认为,世界是为人类设计的,一个与人类形态相近的机器人,可以满足最多的功能需求,这是所谓的最大公约数。
凤凰网科技:达到这样一个规模,可能会像大语言模型一样迎来智能涌现,你觉得会有哪些标志性的事件发生?
姚卯青:智能涌现不一定是某个特定场景,而是体现在几个方面:一是操作成功率高,比如达到 95% 甚至 99%;二是具有强鲁棒性(衡量的是模型对“脏数据”的抵抗力,在面对输入数据的小幅变动、噪声和异常值时仍能保持稳定性能)和泛化性(指模型在未见过的新数据上的表现能力),能在各种真实场景中应用;三是具备与语言打通的指令跟随能力,能理解并执行模糊的人类指令。
凤凰网科技:所以目前的机器人离真正的智能涌现还比较遥远?
姚卯青:目前确实比较初级,这与机器人的硬件形态有关。人类手臂和手具有较高的自由度和活动空间,为精细化作业提供了基础,而机器人目前还处于二指夹爪和低自由度灵巧手的阶段,缺乏精细触觉感知和精确的关节控制。但我们相信,2025、2026 年这些方面会成为行业热点并取得快速突破。