这个5月, AI coding(AI 编程)领域发生了不少标志性事件。
5月3日,苹果与初创公司Anthropic联手开发由AI驱动的Vibe Coding(氛围编程)平台;三天后,OpenAI被曝将以30亿美元收购AI编程新锐Windsurf;5月17日,OpenAI又推出集成于ChatGPT的Codex智能体,实现自动生成、调试和优化代码;美团在5月20日宣布将上线一款AI编程类工具“NoCode”,则为这场竞赛注入 “中国变量”。
可以说,在全球范围内,AI coding工具正爆发式涌现。从GitHub Copilot,到火爆出圈的Cursor、Devin,再到国内字节推出的Trae、阿里发布的通义灵码,在大模型的助推下,AI coding正在从单纯的 代码补全 向更为 智能化、一站式 的方向演进。未来,AI coding能否实现 执行完整编程任务 的雄心?AI coding将沿着何种路径演进,最终又将去向何方?
在「What's Next|科技早知道」的播客节目中,峰瑞资本投资合伙人 陈石 和「声动活泼」联合创始人&「科技早知道」主播 丁教Diane ,以及「科技早知道」节目监制 雅娴 ,围绕 AI coding的演进路径与未来趋势 ,探讨了以下问题,包括但不限于:
在大模型助推下,AI coding将沿着怎样的路线发展?
AI coding的核心壁垒在何处?“得上下文者得天下”成立吗?
为什么说在AI coding领域,要找到“非共识”的方向?
“小白编程”是个伪命题吗?AI coding的用户画像是什么样?
在中美的创业生态环境中,初创公司和大厂分别会聚焦哪些AI coding赛道?
AI coding这块蛋糕最终会被怎么分?这次热潮会改变芯片市场吗?
/ 01 / Copilot or Agent,AI coding的两条进化路线
雅娴:AI coding发展了很长时间,但最近两年才火出圈。AI coding的演进路径是什么?现在有哪些比较典型的产品形态?
陈石:在编程过程中,人们会用到一个思路叫“结对编程”。两个程序员在一台电脑上写程序,一个人是“驾驶员”,直接敲代码、专注于实现细节;另一个是“导航员”,观察代码、思考整体方向,发现问题、提出建议。
AI coding真正起源于2021年。
此前,有一些像代码补全工具Tabnine这样的公司,尝试用机器学习的方法做AI coding。但那时大模型还没有发展起来,AI coding类产品也很难做好。
2021年,微软旗下的GitHub和OpenAI合作开发了GitHub Copilot这款编程产品,AI coding才真正有了比较成型的产品。GitHub Copilot的定位是结对编程的驾驶员,也就是是具体写程序的人,人类则作为导航员。GitHub Copilot早期主要功能是代码补全,借助GitHub的代码库和GPT-3模型,GitHub Copilot能力有所提升。
2022年年底,GPT-3.5发布之后,AI coding才有了实质性进展。进展可以分成两条线:
一条线是Copilot助手,就是人主导、AI辅助,包括Github Copilot、Cursor、Windsurf、Trae这类产品已经进入到实用阶段。尤其是Github Copilot,用户规模已经突破1500万,在2024财年为GitHub贡献超过40%的收入增长。
另一条线是Agent智能体,就是AI主动执行、人类监督。其实人们研发智能体的初衷是希望它能够独立完成一个完整的编程任务,但目前还没有完全实现,也还没有找到PMF(Product Market Fit,产品和市场达到最佳的契合点)。
比如Devin这款编程产品 ,它希望成为全自主的AI软件工程师。我们也观察到有公司在做垂类的Agent,例如:单元测试(对软件中的最小可测试单元,通常是一个函数或者方法进行验证的过程)或代码Review(代码评审,确保代码的质量、发现潜在的错误)等。
雅娴:按我的理解,Copilot更像是一个工具,Agent更像是一个人,可以从头到尾理解你的意思,给你交付出一个结果,中间不需要太多人为干涉。
陈石:其实研发Agent难度非常大,想要研发好,一方面模型的能力要足够好,特别是能理解的上下文要足够长。目前,Cursor提供的AI模型的上下文长度,或者说“脑容量”只有20万token。我觉得20万token或者100万token是远远不够的。
另外,Agent对于人类的上下文收集能力也要足够强,要收集、了解用户个人的上下文,或者企业的上下文,否则很难理解背后的需求。比如,“研发一款短视频软件”这个需求是非常复杂的,人们很难表达清楚。
Agent目前面临模型能力、上下文收集能力两方面制约,Copilot这种协作类产品比较容易率先打开市场。
雅娴:刚才你提到了Devin这个产品。Devin在刚发布时引起了蛮大轰动,现在融到了很多钱,但是为什么还是一个不能太落地的产品呢?
陈石:Devin的定位是全能一站式写完一个复杂软件。“复杂”最直接的体现是软件的代码量。
以Google的Chrome浏览器为例,它大概有数百万行代码,而一行代码可能有5-10个token。一般的AI模型显然装不下这么多token。
GPT所梳理的大型软件代码量。
不止Chrome,据说像Facebook和Netflix这种分布式系统或者是应用,甚至有上亿行的代码。如果AI coding产品不具备强大的“脑容量”,很难去理解一个系统或者应用的全局架构,更谈不上系统设计。
所以,AI coding不是写几行代码那么简单。做一个类比,设计编写一个复杂软件,首先你需要读完很多文档或代码等资料,相当于把一整座图书馆里的书都看一遍,才能读懂每本书及书与书之间的内容和逻辑关系。学完这么大体量的内容,你才可以比较好地做复杂软件的AI coding。
所以我觉得Devin的定位挺不错的,也有雄心,但是它目前似乎只能做到中间阶段,可以写部分简单或者中等规模的代码,但可能还写不出复杂代码,或者说写复杂代码还是需要人类来帮忙。
AI coding产品全景图。
雅娴:我们看到一张图,它总结了主要的AI coding产品。纵轴上的L1到L5代表产品自动化的程度,数值越大,自动化程度越高。Devin的理想可能是做到L4,成为AI engineer(工程师),不是task base(任务导向),也不是project base(项目导向),是一个更高层的自主化阶段。
陈石:其实现在AI coding产品还不成熟,能执行一些task层面的简单任务就已经很不错了,谈不上project。在Copilot以及一些垂类需求的Agent上,可能还有机会变得更成熟,比较实用,市场能够接受。
/ 02 / 得上下文者得天下?
丁教:可能现在程序员最稳健最安全的做法还是用Copilot,让AI帮忙补全代码。这也是大家付费意愿最强的一块,对吗?
陈石:对的,程序员这个群体相对来说需求比较确定,收入比较高,或者对企业而言成本比较高。如果能够提高效率,无论是企业或者个人是愿意出钱的。
很多人会问:AI大模型时代,如果绝大多数的能力集中在基座模型侧的话,那么做AI应用的价值到底在哪里?毕竟大模型可能捎带手就把应用给做了。这个问题是行业里大家都特别纠结的,直到2024年下半年,我才想通了这个问题。(欢迎阅读《展望2025,AI行业有哪些创新机会? | 峰瑞报告》)
我觉得未来AI行业的价值、壁垒或技术积累会集中在“云”、“端”两侧。
云这一侧是大模型或者云服务,基本上AI应用的智力、创造力、规划这些能力都是从大模型过来的。
端侧今天的需求很明确,就是要拿下用户的上下文。在个人用户侧,上下文可能是用户的一些习惯和背景,或者使用各种产品、各类应用的一些选择和偏好等等。在企业侧,上下文可能指企业的代码库、内部数据、知识库或文档,以及行业领域的知识等等。
还有更进一步的,我们叫新的上下文。比如用Cursor做任务的时候,本质上是用户自己做数据标注,这类标注如果被Cursor、Trae这样公司收集起来,是非常有用的。
不仅如此,今天有一些所谓MCP(Model Context Protocol,模型上下文协议)或者Agent to Agent的协议(由Google推出的开源协议,旨在实现Agent智能体应用程序之间的通信和互操作性),能够让用户在客户端可以调用任何其他应用的服务。例如,以后说不定我们可以在Cursor或者Trae上定美团外卖。这样的话,用户的上下文在各个应用场景都可以被收集上来。
我觉得未来在AI应用领域,很可能就是得上下文者得天下。
为什么像OpenAI这样的大模型公司愿意自己做客户端?就是要直达用户。互联网上的数据都被拿来做AI模型的预训练或各种后训练,用得差不多了,但是有一类数据还没有被充分收集起来,就是用户的上下文,这才是人类需求的源泉。如果你收集到足够多、足够准确的上下文,意味着拿到了能产生更好训练效果的数据。
/ 03 / “小白写代码”,是个伪命题吗?
雅娴:在我看来,AI coding产品中,Cursor更像是ToC的生意,Windsurf像是ToB的生意。那么在AI coding这个领域,业界对ToC还是ToB有什么样的共识?
陈石:当前最先“成熟”的是ToP(To Professional),即面向专业人士。ToC的话,小白用这些AI工具还是蛮难的。
比如ChatGPT,可能专业人士更愿意为其付费。对于普通用户而言,大模型应用有一定的学习门槛,不一定能够适应。
对于AI coding产品来说,面向专业用户是挺好的路径。专业用户可能有两类,一类是专业的开发人员,本来就从事开发,用这种AI coding工具比较顺手。还有一类是非程序员背景的专业人员,比如产品经理、数据工程师,或者像我这样之前写代码但现在不写的人,这类人有潜质能够指导AI写出好的程序。这两类人可能愿意为AI coding产品付费。
现在全球有数千万程序员,如果加上非程序背景的专业人员,估计有几亿人。
雅娴:“小白有写代码的需求”,这会是个伪命题吗?
陈石:我觉得不太成立。大部分小白用户可能并不需要编程,他们可能需要更好用的office软件。
现在大模型内置了一些升级版office的功能,比如OpenAI的Canvas(协助写作和编程)、Claude的Artifacts(协助编程和内容生成)。未来,可能会出现新的office应用,能用自然语言能执行一些类似编程的小任务,但它本质上是office。
/ 04 / Vibe Coding会变成新趋势吗?
丁教:Vibe Coding最近好火,但似乎是给AI coding换了一个新的名字,其实还是程序员怎么用AI来coding。
雅娴:Vibe Coding是AI专家、前OpenAI联合创始人Andrej Karpathy提出一种新的编程范式,指的就是不用像传统程序员一样一行一行敲代码,而是用自然语言描述,让大语言模型来生成代码。如果Vibe Coding能实现从编程语言向自然语言这种范式转移,意味着程序员不需要再去看代码的细节,只做一些指导或者评论反馈,就能实现编程的需求。
陈石:我以前写程序,写过的最底层的程序就是汇编语言,对应的主要是机器码,就叫低级语言,后来开始写C语言这类中级语言,最后才是Python、Java、JavaScript这些高级语言。编程语言会进步,会越来越抽象,让程序员失去对“底层”的控制。
但这种“失控”不见得是坏事情。如果今天大家都用汇编语言,我估计不会有这么多好用的软件出现。当编译器这类工具能够非常准确地把中高级语言映射到低级语言的时候,人就自然应该往高级、往抽象的方向去走。
Andrej Karpathy曾提出:“最热门的新编程语言是英语。”此处的“英语”可以理解为自然语言。
图片来源:社交平台X。
2025年2月,Andrej Karpathy又提出Vibe Coding(氛围编码)的概念。意思就是用自然语言跟模型对话,让它去编写和修改程序,在这个过程中模型几乎“忘记“了代码。
当然,Vibe coding现在还有各种各样的问题。以我自己的亲身使用体验为例,我曾经在一款Vibe coding产品上用自然语言要求AI写程序。但是这个程序一直无法编译通过,AI判断是一个框架的版本有问题需要升级,但是它改了半天也改不出来。后来,我就明确要求它更换成一个别的框架,马上就好了。
作为一名“老程序员”,我大概知道问题出在哪;但是如果换成一位“程序小白”,如果你不给AI指条明路,它还在原有的框架里头绕来绕去,恐怕很难获得良好体验。
但是我觉得Vibe Coding未来是可以实现的。
和Python、JavaScript等编程语言相比,自然语言更抽象,但可能不一定那么准确,容易存在理解上的歧义。但也正是因为自然语言更抽象,所以表达效率很高。如果将自然语言和编程工具或者数学公式等结合起来,说不定“程序小白”也可以做出较为复杂的应用。
丁教:Vibe Coding过几年更加成熟,发展成用完全的自然语言来编程吗?
陈石:往后看大概五年,有可能用Vibe Coding做出中小规模的软件应用,因为今天的模型发展很快。但如果要做特别大型的软件应用,可能比较理想的方式是,留一个人类帮助的接口,让一位老程序员看着,人指导它的同时,也在标注,能让这个模型会学得更好,Vibe Coding也会慢慢进步。
/ 05 / 中美的生态不同,初创公司和大厂如何选择赛道和机会?
雅娴:初创公司和大厂做AI coding这件事情我还蛮好奇的。美国很多出圈的coding公司,比如Devin、Cursor都是初创公司。国内其实也有一些产品,像字节的Trae、阿里的通义灵码,初步看起来好像是大厂反应更快一点。怎么看初创公司和大厂在AI coding赛道上的发展?
陈石:我在大厂待了五年,大厂如果立项做一个事情,往往上会倾向于选择“看得见”的、或者最好是PMF得到了初步验证的。选择有共识的赛道,这对大厂来说是个好的选择,它们没必要把每一个末端的新东西都尝试一遍。
大厂让位,交给创业公司尝试也好,后续可以收购,或者继续做进来。这是很正常的,反倒给小公司留下了一些机会。
小公司有几个特点。第一,创新速度比较快,人少、更敏捷,而且非常重要的是,它愿意尝试一些激进的、非共识的想法。第二是技术密度高,虽说人比较少,但是人才密度很高,工作起来很高效,没有大公司的那些流程。另外,小公司可以充分利用开源的外部生态支持。
AI coding这个市场非常大,大家都处在早期,还看不到终局。所以,大厂和创业公司基本上还在一个起跑线,这里有很多机会。
但归根结底,创业公司应该寻找“非共识”的创业机会。Cursor和Devin都属于瞄准“非共识”的典型案例。
在Cursor出现之前,GitHub Copilot是以VS code(微软推出的开源代码编辑器,可以理解为编程领域的“Word”)的插件形式出现,而Cursor在起步时就提出要做一个完整的代码编辑器。
这就是一个非常非共识的做法,对于创业公司来说,尝试对一个代码量超过50万行的代码编译器进行大量修改,其工作量和技术风险都非常大。但只要做好,就可以控制代码编辑环境,从而有机会做出显著超越Github Coiplot的产品功能。
如今,Cursor的上下文收集和打包能力很强大。遇到代码出错的情况,Cursor会自动把代码、环境设置、报错等上下文打包发给大模型,不需要用户自己手动拷贝,极大提升了工作效率。
Devin的“非共识”在于定位。Devin定位是“全自主的AI软件工程师”,曾被评价为“瞄得太高”。但高定位也是保护伞,在没有太多确定性的时候,大厂可能不愿意追。
雅娴:那Devin会是AI coding的一种最终形态吗?
陈石:Devin可能是瞄着终极形态去的,但是能不能做到、或者怎么做到,以及是不是它做到,都很难说。起码它的定位很独特,可以一直往这个方向去发展。如果模型或者其他条件具备,说不定Devin就能做出来。这就是小公司的好处,大公司很难这么干,技术路线或者产品分支对不对都不知道的时候,大公司可能会观望。
雅娴:现在美国的大厂好像没有中国的大厂步伐那么快。
陈石:美国大厂跟随的速度比较慢,反而给创业公司留了机会,创业公司有机会实现原创性的、定位上的突破。
峰瑞已投企业有一些做AI应用的,我会鼓励他们出海,先去试一下,说不定有更多的机会,后续再“出口转内销”。
在不久的将来,在AI领域,中国未来会进化到实现独特的创造,就跟中国的移动互联网时代一样。可能刚开始我们要向美国学习,后来我们做出了更好的产品和商业模式,反倒可以向美国出口。中国的团队在ToC方向的产品能力很强。
在移动互联网时代,无论从应用数量还是用户规模,中国都超过美国;美国上一个火遍全球的ToC的应用应该是Instagram,已经是10余年之前的产品了。
在AI时代,中国大量AI应用出海,也证明了中国企业的能力是在的,当环境具备的时候,他们可以再回来创造出新的物种。
/ 06 / AI Coding会走向怎样的终局?
丁教:如果从投资的角度来看,AI coding是比较火热的赛道。因为它可能是AI领域PMF跑在最前面的,也是商业化最好的一个赛道。不管是在中国还是美国,现在这个机会窗口,是不是已经慢慢开始关上了?感觉头部玩家已经慢慢形成了。
陈石:Copilot在中国的局面现在已经比较清楚,是被大厂瞄准的赛道。
我们鼓励创业公司要做一些艰难的选择,找一些非共识的方向。比如尝试预判下一代模型会具备什么能力,在此基础上,你去思考把它落地到哪些场景。还有一类就是深入做一些垂类的应用,比如生物领域。这些都是挺好的机会。
就Coding而言,我建议创业公司尝试Agent,因为Agent的技术路线更难。反正大家都一个起跑线,不妨赌一把。
雅娴:以后,AI coding这个蛋糕是会被不同的玩家来分,还是说可能最后会是赢者通吃的状态呢?
陈石:AI coding仍处于各方面都在变化的状态,交互、载体,模型以及上下文能做到什么程度,都是一个问号。
未来用AI写软件涉及到很多复杂的因素,比如,模型的上下文长度要足够长,还要让人类在前端心甘情愿地做标注。此外,用代码写软件还是用“神经网络”写软件,是两个完全不一样的事,而用户的需求应该用哪种方法来实现,也是不确定的。
从历史发展的角度来看,Coding是对人类社会起到重要作用的一种开发工具。从计算机出现至今,Coding的载体、对象、用户都在变化。未来,Coding还会有各种可能性,当下我们很难预判它的终局。
雅娴:终局不容易预判,但机会还是有的。
陈石:对,大家都看不见,创业公司也可以“浑水摸鱼”。
雅娴:今天咱们聊完,我有一个体会。打个比方,如果把AI Coding的终局想成一个特别高的台阶,我们现在还没办法一步迈上去。但是我们可以搭很多小一点的、浅一点的台阶,一步一步迈上去。
陈石:投资圈有个说法叫“沿途下蛋”,意思是有一类项目,在达到它的设计终点目标之前,可以沿途输出阶段性的产品或服务,从而形成一定的技术验证和商业收入等成果,且有利于未来目标的达成。
以Devin为例,让它直接完成一个复杂需求,可能会在不同环节报错。可以考虑引入人类的协助和提示,将需求拆分为阶段性的内容,沿途下蛋、一步步完成。这也是一个让Devin迭代进化的过程。
如果编程的产品设计有类似的演进过程,沿途下些蛋,不仅可以养活自己、锻炼团队,还可以积累一些经验,然后慢慢地走向终局。