
作者 | 李水青
编辑 | 心缘
智东西11月21日杭州报道,上线仅三天,蚂蚁集团首款全模态通用AI助手“灵光”便跻身iOS免费工具榜第一、App Store总榜第七,成为2025年底最受瞩目的通用AI助手竞争者。
灵光App迅速登顶App Store免费工具榜(图源:App Store)
阿里巴巴创始人马云两天前刚现身蚂蚁园区,他对这款产品寄予厚望。蚂蚁集团CTO何征宇在采访中透露,马云期待这款产品能“往前冲第一”。而截至昨日下午,灵光App下载量已经突破50万,远超团队今年全年目标。
在字节“豆包”、深度求索“DeepSeek”以及同是阿里系的“千问”等通用AI助手已有一定声量的背景下,蚂蚁这次推出的“灵光”有什么独特之处?又想要如何影响当下通用AI助手市场的格局?
为了探讨这些问题,智东西等媒体昨日抵达杭州蚂蚁园区,与蚂蚁集团CTO何征宇、灵光负责人蔡伟进行了面对面交流。
从产品基本面来看,“灵光”首批上线三大功能:“灵光对话”、“灵光闪应用”、“灵光开眼”。其开创性地在移动端实现“自然语言30秒生成小应用”,支持输出3D数字模型、音频、图标、动画、地图等全模态信息,并且交互“丝滑”。(《蚂蚁灵光App空降!太丝滑了,零门槛生成专属应用》 )
灵光App拥有极简的视图(图源:灵光)
而通过本次近两个小时的采访对话,我们对蚂蚁AI超级入口战略、灵光App设计理念及技术亮点以及整个通用AI助手赛道的产业趋势,都有了更深入了解,主要信息干货如下:
1、马云内部表示期待“灵光”团队“往前冲第一”,并认为原定“年底20万用户”的目标“太低了”。
2、开发“灵光”的是一支200多人的AGI“探索小组”,从研发到工程都在统一主轴下工作。
3、不主动对标ChatGPT等竞品,“不认为对标是一个特别好的目的”,认为现在谈竞争为时过早。
4、与豆包、DeepSeek打差异化,一大特色是“一句话生成应用”功能,定位普惠、低门槛,与Cursor等专业工具也形成差异。
5、回应与“千问”的竞争:是共赴AGI的“战友”和“兄弟”,并用“沙漠中分路找水”比喻协同探索。
6、“灵光”底层为多模型混合架构,采用了包括阿里“千问”及蚂蚁自研开源模型等在内的多个模型。
7、业内首个基于全代码生成的产品,类似于从Email进化到Web,背后解决了代码输出量比文本高“五六倍”的膨胀率带来的流畅度挑战。
8、认同“模型即产品”,明确灵光现阶段是“Save time”的“效率类”产品,主轴并非情感陪聊。
9、承认产品存在不完美,但认为这是在“模型能力边界上创新”必须付出的代价,并相信会快速优化。
10、蚂蚁支持几大AI助手的算力储备充足,AI Infra技术大大提高算力效率,“业务的成功掩盖了我们技术的光芒”。
本次采访的主要速记内容如下,智东西做了不改变原意的编辑。
一、关于蚂蚁AI超级入口战略:不对标任何产品,马云让“冲第一”
Q1:前两天,马云先生出现在蚂蚁园区,他对这个产品有没有什么评价?
答:马老师他那天来肯定不是因为“灵光”(笑)。然后他今天早上跟我聊的是希望我们要“往前冲第一”。我跟他说的是,我们本来也没这个期待,本来是准备玩一玩,年底到个20万用户,他说“这个目标太低了”。现在来看,我们昨天已经完成了年底目标。
Q2:灵光APP与阿里千问App发布仅相隔一天,两者有什么联系?底层用的是千问模型吗?
答:产品发布方面,我们确实没有约好。我们为什么会选18号?这是“灵光”自己算的,有了这么一个机缘巧合。灵光底层用了多个模型,也包括了千问,以及蚂蚁自研的开源模型。
Q3:“灵光”有对标的产品吗,比如ChatGPT?是否会与“千问”或其他产品共同争夺“国民级AI应用”的头把交椅?
答:我不认为对标是一个特别好的目的,它可能是你产品到一个阶段后的结果。从产品的角度,我更愿意用发展的思路向前去看,说现在的模型能力是什么?现在产品表达是什么?半年后模型能力能演进到什么程度?能够解决什么样的用户需求?我认为这个想法在AI时代是非常重要的。因为未来的若干年内,模型的能力依然在持续的演进,所以基于大模型的应用会是一个高速发展的市场,现在依然处在早期。
首先短暂的第一名可能是没那么重要的,然后你去直接对标一个竞争对手也是没那么重要,甚至是错误的。
其实这个理念在互联网时代、移动互联网时代已经反复的在不断地被验证。就跟当年各种短视频平台扎堆,还有产品一骑绝尘,后来抖音突然在某一年横空出世,并且在这几年成为一个国民级应用。本质上还是说这个赛道足够的宽广,给用户体验的提升空间非常大。
在现在AGI时代,我们认为是一样的,这个赛道足够的宽广,然后模型的能力依然会有持续的很大的发展空间。我们要做的就是找准正确的方向,基于模型的能力向前看,一路狂奔。等我们奔到模型能力进展没有那么快的时候,再去回头看一看整个市场的格局是什么样的,有哪些竞争对手。
Q4:具体聊一聊灵光App和千问App的竞合关系。有人说“灵光”和“千问”的发布,意味着阿里系打出“通用+垂直模型”的组合拳,对此你们是怎么理解的?
答:我理解应该是共赴AGI的这种“战友”和“兄弟”的感觉。
因为AGI的技术空间和市场空间都是巨大的,它也充满着不确定性。我经常打一个比方,就是说我在沙漠中要找水的话,我一定不会把所有人都派到一个方向走,一定是好几路一起去找,谁找到了大家一起分,应该是个这样一个逻辑。而且在很多的技术上,我们大家都比较开放,我们还开源了自研万亿参数模型;AGI时代就是开源开放时代,没有这种开放精神,大家都很难进步。
Q5:为什么蚂蚁不再把AI嵌入支付宝,而单独推出一个灵光App?是如何与集团的其他板块去协同的?
答:不是说不选择嵌入支付宝。支付宝下拉的“快捷访问”中的AI助手,其实还是运用了大模型技术,比如可以用下拉语音对话叫车。每一个产品最关键的是说要有产品主张,或者说你到底解决什么问题。这些东西已经在支付宝主端开始慢慢落地了,再单独发一个App的话大家感知可能没那么强。这又回到了第二个问题,就是我们很多技术已经慢慢扩散到蚂蚁的其他几大支柱产品,大家都会陆续看到新进展。
Q6:你们短期内会有什么目标?比如20万下载量已经达到,下一阶段目标是多少?
答:我们没有朝着什么对标去走,但我们希望被别人对标一下。20万下载量是一个指标,它不是目标。灵感的目标还是我们想成为一个开放性的、有主张的、大家能喜欢的用户产品。
二、关于“灵光”产品技术亮点:定位效率产品而非陪伴,移动端“手搓应用”是特色
Q7:灵光App的产品差异化特色是什么?
答:从产品特色的角度来讲,我觉得“闪应用”毫无疑问是一个非常有特色的能力。现在已经上线了两天,我们在观察用户行为的时候,发现很多用户会长轮次地用“闪应用”,这超出我们在上线前的预期——他们平均的在一个案例里修改达到6轮,其中有一个用户他连搓两个多小时,改了一百多次,做了一个应用。这是让我们非常惊喜的地方,因为至少验证它向某些用户实现了实实在在的Deliver(交付)。
灵光App的“闪应用”是业内第一个把“手搓应用”真的做到移动端的产品。产品本身足够的新,虽然还不完美,但是对很多用户来讲,它解决了之前完全解决不了的问题,解放了很多人的一些生产力。
用灵光App一句话生成“记账”和“云养猫”应用(图源:智东西)
Q8:从3月立项到11月上线,团队是如何确定了现在的三大核心功能(灵光对话、灵光开眼、闪应用)?中间是否经历过艰难的取舍?
答:在开始的时候,我们更多的是聊用户的价值和主张,功能是在讨论清楚价值之后在确定的。
当时我们有两个判断,一是判断回合制的“主对话”方式,依然是一个天花板足够高、能够承载未来若干年模型能力发展的一种形式。所以就有了刚才的三大功能里面其中的两大——“问答“和“闪应用”。
“开眼”是说,除了这种回合制的交互之外,我们有没有实时的交互。其实人和人之间的交流大致也就分成这两种:一种是你来我往,一种就是面对面的交流或打电话实时交流。所以这种回合制的交互和实时交互,是我们对产品本身在交互层面的一些思考。
回到“闪应用”,选用过程其实相对更特殊一点。今年1月我们整体在做规划的时候,先出了一个视频Demo,然后当时就把这种类似的可交互的功能规划进去了。有一个有趣的小插曲,当时算法同学就看到设计同学在做这个视频,他就说你们做得太酷炫了,问这是用来干什么的?设计同学跟他说做的是你们下个季度的OKR,然后那个算法同学就对不做声了,默默的回到了座位。其实在那个时间点,我们也不知道这种实时可交互的方式,到底能不能够在一个10秒左右的时间生成一个像今天这样“闪电”般的的效果。但回过头来看,好像一切顺理成章。
在今年3月份的时候,这个事情没有那么的明朗,当时确定的是Coding能力很重要,并且这个能力在不断向前发展,但是到底能发展到什么程度?什么时候能达到用户满意的效果?其实这在当时有非常多的不确定性。但我判断这是在AGI时代的一个核心能力,就设下了这个方向。
Q9:在进行快速研究时,灵光生成的内容排版清晰、可读性强。想请问,这类回答是否基于预设的呈现模板,还是主要由模型自身的生成能力驱动?
答:这也是这一代的AI产品跟之前的很多产品最大的一个区别。我们不再需要靠预设模板去达到好的效果。甚至你看同一个问题,刷新重新问一下,他可能会呈现不同的优美排版,信息效率同样的高。
灵光App生成的内容图文并茂、排版美观(图源:智东西)
这里面的核心的是我们的产品主张。比如说对于信息的获取,我们有几个维度是非常关键的要求:多、快、好、新。就是信息要丰富,信息出来的时间要短,你不能等个一两分钟;然后信息要好,这个好包括基础准确性、阅读体验等。然后还有信息要新,比如今天上午发生的一些事情,我们中午去问就应该有相关的结果。
所以在这样的产品主张的情况下,我们会把这样的主张去学到模型里面,然后同时给模型一定程度上发挥空间,同时尽量限制他的幻觉。在这样的情况下,我们才能做到相对丝滑的整体效果。它会更像一个人的回答。这里本质还是依赖很多模型能力跟算法。
Q10:支付宝此前推出过“探一下”功能,“灵光开眼”在某些方面看起来也和“探一下”有共通之处,比如灵光也会分析场景里的精彩内容,然后实时呈现到画面之中。请问“灵光开眼”和“探一下”在技术实现或设计理念上,是否延续或借鉴了“探一下”的经验?
答:“探一下”是我们团队去年的产品,它是在支付宝内的一个功能。它的功能是当我看到一个场景,给它拍张照,它会针对这个照片进行一些分析,这是我们去年的一个视觉原生入口的尝试,本身也有非常多的访问用户。
今年在灵光里面的“开眼”功能,是在“探一下”的基础上做了一个升级。它不是只是拍一张照片做一些分析,而是能够在实时的场景里去展示出你想要得到的信息。底层逻辑是我们认为“人与世界交互的方式是连续的”,所以“我们在AGI产品里面呈现的方式应该也是连续的”。但背后很多的算法技术、理念都是一脉相承的。
Q11:“闪应用”不支持修改代码?
答:这也是一个产品主张。因为绝大部分人不具备直接修改代码的能力。“灵光”在这个点定位跟Cursor不一样(为专业用户而生),灵光编程整体门槛会更低一些,另一方面它可能也会牺牲一些编程灵活度。
Q12:马斯克预测未来5到6年之内,AI崛起会推动传统App消失,灵光生成的应用会不会符合这个预期?
答:我认为未来这样的形式创作会越来越普遍,它是一个大势所趋。但至于说未来这样形式的应用和传统App是不是会共存,以怎样的方式共存,并不是我们目前最关心的问题。但我相信共存方式还是以用户价值为核心的。
Q13:请问灵光未来是否会考虑打造完善的闪应用生态体系,例如提供官方的应用托管平台或应用市场?
答:未来这方面的能力是有待考虑的。我们核心还是希望能够做到普惠,所以凡是符合这样的产品主张的功能都是在考虑之内的。
闪应用今天还是一个非常早期的形态。因为我们相信未来6-8个月内,整个模型的Coding能力肯定会越来越强。我们今天依然坚信这是一个技术演进的必然趋势,所以闪应用肯定会越来越好,越来越丰富,就像GPT-3.5到GPT-5有一个过程。等时机成熟的时候,我们会自然而然地推出这种MarketPlace或生态平台。但是它的一个前提是,我们的质量可以达到“多、快、好、新”的精品,因为只有精品大家才有分享欲、消费欲。
Q14:灵光App实现了很不错的一个交互,像一款GUI(图形用户界面)产品,之后在这方面会有什么更进一步的探索?
答:讲实话,我们在推进产品中的思路不是说一定要做一个GUI的产品,核心还是希望在信息传递的过程当中实现效率最高。我们还是沿着这样的一个产品主轴,再结合整个模型能力的突破。在这个过程中,我们发现模型写代码、调动各种工具,确实到了一个不仅是能够降本增效,还具备生成用户消费级内容的一个临界点。
然后对我们团队,包括对整个蚂蚁,在很多技术上面我们都走在科技的前沿,我们都会去尝试现在最前沿最先进的技术。所以在这一块,我们未来也依然会用闪应用形式、图文并茂的呈现方式、多模态的形态等,还比如还未透露的SVG(可缩放矢量图形)形态,用这种形态为用户讲解“量子力学”、“波粒二象性”等动态演示效果。所以其实我们会做很多这样的一些尝试。
我们相信,在过去我们看到的互联网上所有的内容,本质上都是用代码生成的。只不过这些代码以前都是人去写的。未来我们完全有能力去重塑整个互联网的内容和服务生态。本质上还是因为我们相信代码能力越来越强,编程的能力越来越强。我们把这些能力用好,整个信息的呈现方式、交互方式会有质的提升。
Q15:就我的体验,灵光在生成图片时对一些意境不是特别理解,文字润色上会出现生硬的情况,接下来的产品会不会在这方面有更好的优化?
答:下次你如果遇到这种情况,你刷新一下,可能结果就对了(笑)。
我觉得这是个很好的问题,它反映了两个点:第一个点就是刚才聊的,我们是在模型的能力边界上做一些创新,这就意味着可能并不是所有的能力都非常稳。当然我觉得这也是需要付出的一些代价,如果去等所有的技术都非常成熟了,我们可能就失去了很多迭代跟先发的机会。这些问题随着模型能力的提升,会变得越来越好的。
然后第二点,现在市面上但凡做得比较好的产品,它都有自己的产品主张,都是不一样的。比如豆包里面很多打电话的功能很有特色,DeepSeek里的深度思考的功能也很有特色。对灵光App来讲,也有自己的产品主场,我们需要做的都是把自己最擅长的那一部分打得非常的长。任何一个产品不是要解决所有人的所有的问题,这也是为什么世界上有非常多不同的公司。我们希望灵光能够在最擅长的一些场景里打透打穿,这样才能够形成一个相对稳定的用户群,对这部分用户创造更大的价值。
Q16:灵光定位一个更偏工具型的产品,产品设计中的取舍是什么考虑?比如它的记忆功能、陪伴情绪等功能方面与上下文等技术迭代速度上如何取舍?
答:我个人观点是,上下文本身跟工具的属性并不矛盾,或者说我们可能不一定要用工具这个词。本质上它解决的一类问题是效率类问题。现在大部分的互联网产品可以分成两类:一类是效率类,它要满足用户的需求,就是Save time(节省时间),说到底是在什么场景里怎么去Save time,比如百度搜索、大众点评、ChatGPT等;还有一类产品其实是杀时间产品,比如说最典型的是抖音。很多时候大家可能是一天上班很累了,然后打开抖音去看一看。
一个产品开始的阶段需要有一个主轴。我们的产品主张,是把灵光的主轴定位在效率侧。当然你说一个产品发展到后面,它可能二者都会有涉及。那么在这个阶段,灵光现在主打的功能并不是陪聊,不管是情感的陪聊还是IP陪聊,并不是目前产品的一个主张。我觉得这个更多还是对于一个新产品,我们还是认为想要先把长板拉得足够长,然后再去补其他的短板,可能这是一个效率最高的方式。这也是一个更容易让用户记住,能够创造更多用户价值的。
三、关于通用AI助手赛道格局:“今天讲的竞争不是竞争”,与豆包、DeepSeek打差异化
Q17:AI to C市场已有一些产品,现在入局,是否会觉得“起步稍晚”?比如字节豆包有抖音的流量,腾讯元宝有微信社交生态,那么蚂蚁“灵光”的底气在哪?同时挑战在哪?您如何看整个行业的竞争?
答:我还是不期待用竞争的视角去看这个东西,因为机会太大了。我们相信它是一个互联网级别的机会,我们至今至少享受了30年的互联网时代红利。那大模型从2022年至今也才三年,我们还有很长的路要走。所以说你今天讲的竞争,我认为都不是竞争。只是有人暂时在一个方向上找了一桶油,有人找到了一个苹果。
第二个,在AI to C的这个方向上,我认为还是要看大家的理念是什么。比如豆包的打电话功能、DeepSeek擅长的推理模型,已经能够帮大家解决很多问题了,我们没有去也特别关注这些。我们一直强调的是到底能帮用户解决什么样的真实需求,刚才说的信息获取效率肯定是个问题和痛点,所以我们是朝着这个方向去走的。
而且我们相信,因为我们看到了这些问题,并坚持我们的技术理念,我们团队所有一流的工程师都在这个方向去努力,那么我们肯定能走得比较快,或者比别人好。所以才能赢得我们今天超出预期的结果,我认为这是我们最大的底气。
Q18:您说就是从年初开始组建这个AGI攻坚队伍,你们是怎么去规划这种产品和研究两个方向的目标,你是怎样去规划AGI蓝图的?
答:我们不叫攻坚小组,叫探索小组。我们也不存在两个目标,你们后面会看到你说的多位大佬的作品,都是在同一个赛道里面各司其职。
我认为今天的时代的红利是什么?如果我们能够把做的Research(科研)变成一个普惠的产品,我们就有更多的红利。从这个逻辑来讲,我们必须加快这个速度,加快循环效率。因为某种意义上,可以做的研究方向太多了,但从用户视角去看产品,研究万变不离其宗,就是一直讲的效率。
我们有一系列的战略选择,为什么会做Diffusion(扩散模型)?是因为它的至少从Close generation(最近一代)的效率来讲是非常好的;为什么会做Coding(编程)?我们坚信Coding既是语言的延伸,也是各种各样的媒体的表达形式,那我们就要把效率做到极致;你今天看到的“灵光”的所有的东西,哪怕就是文字,它其实也是html,这里面其实对Research的要求是很高的。
其实很多朋友第一个反应是问你们为什么做得这么快?因为我们产生的代码和同样的文本来比,它的膨胀率是非常高的,大概有五六倍。那你如何能够瞬间跟文字一样的流畅地输出?其实我们是在硬件利润上,包括在模型架构,从数据到系统上下了很多功夫。
所以我想说的是,我们并不是说分头在行动,而是说从研发到工程,到产品,都是在一个主轴上——就是如何让用户获得信息的效更高。
Q19:如何看待“模型即产品”?
答:我认同“模型即产品”。作为一个产品来讲,它本身就是要解决用户的需求。解决用户的需求其实有很多种方式,有时候我们用模型去解决,也有时候我们堆人去解决。大模型能力带来了很多变化,我们会越来越倾向于用模型的方式解决,虽然很多时候短期内堆人更快,但是这种方式往往是不可持续的。从这个角度来讲,灵光的定位依然是一个非常纯粹的技术产品——一个大模型出口。从这个角度来讲,我认“同模型即产品”。
但另一方面,如果我们认为我们做好了一个基础模型,其他什么也不用做,然后把这个模型扔在外面,它就会变成一个日活过亿的国民级产品,我觉得大概率不会发生。原因是模型是一个底座,它提供了很多能力,但每个人的需求千差万别,怎么才能够嫁接模型能力到用户具体的需求上,这里面其实是需要产品经理、设计师、运营、算法、工程等团队做很多的工作,共同去探索究竟模型的能力成长了,能解决哪些几年前解决不了的用户需求。
我们只有在模型能力跟用户需求的边界上不断地探索,才有可能去挖掘出很多新的点。
其实“灵光”App里面的“闪应用”是一个非常典型的例子,我们在这个模型能力的边界上找到了这么一个点,然后用普惠思维把它做到了移动端,让每个人都能够一句话生成应用。而在过去,无论你堆多少资源也做不到这样的效果。
所以我觉得模型跟应用要齐头并进,这也是我们整体去做大模型产品的一个理念。
Q20:灵光App在蚂蚁生态当中的角色定位是什么?
答:我经常开玩笑说一句话,就是“蚂蚁业务的成功掩盖了我们技术的光芒”。虽然“灵光”今年3月才立项,但前期所有的技术其实是转化到了上来。今天来看,“灵光”还小,我们对他的愿景肯定是美好的。在AI时代,我们肯定得有一款自己的代表产品,可能是“AQ”、“蚂小财”,也可能是“灵光”。但就像蚂蚁当年从互联网到移动互联网有了支付宝,然后有了余额宝、网商银行一样。
我们在不同的方向去探索,希望“灵光”成为所有人的全能的助手,“AQ”成为所有人的健康管家,“蚂小财”成为每个人的“数字巴菲特”,这种愿景指引我们在不同方向上(前进)。其实就是尽你所能去找那口井的感觉。今天来看,我们不是说有一个推导目标,而是探索是一些不确定的东西,恰好这种不确定性带来了非常好的机遇。
灵光区别于其他产品的地方,一是它站在我们技术的最前沿,二是它也是在一个不确定性中去寻找确定性的一个产品。








