作者|王兆洋
当一家创业公司开始有“敌人”的时候,这家公司会第一次呈现出它的气质。
这种气质也可以说是创始人的气质。
在以一种近似都市传说般的方式成为中国最被关注的大模型新公司、一年拿到几十亿美元融资、推出Kimi并获得3600万月活C端用户后,杨植麟和他的月之暗面开始遇到它反目成仇的敌人。
11月11日传出的报道称,月之暗面创始人杨植麟、联合创始人兼CTO张宇韬,被他们在此前创办的循环智能的投资人提起仲裁,理由是,杨植麟等人在获得这5家投资方的同意豁免书之前,就已启动融资并创立月之暗面。
一切冲杨植麟而来。
在2022年12月之前,杨植麟是一名在硅谷闯荡后回国的90后AI学者,在CMU读博时发邮件推介自己的研究想法,就和一众大佬共同发了多篇论文;读书期间去Meta和Google等大厂实习,成为多个重要模型的核心成员;之后回到清华成为一名1992年出生的年轻教授,又同时和朋友一起创办了一家NLP公司循环智能。
而在2022年12月之后,他迅速告别了此前的一切。
从他身边的人的描述来看,他是一个在重要的事情发生后,可以比其他人更早意识到机会,并切中要害的人。在大模型的事上,这个特点再次体现。他很快认定这是大事。但彼时有这种“顿悟”的不只有他,一众等待许久的科学家纷纷创业。只不过,与这些科学家前辈们不同的是,杨植麟快速用新的方式抢跑——
他没有像很多创始人那样在已经成立的公司里做新的事,而是既往不恋,直接结束上一段创业。
13年前,杨植麟高中毕业的时候在汕头中学作为状元致辞,他在开头这样写道:“16年前英国乐队The Verve宣布解散,末了丢下一句拜伦的诗:“All farewells should be sudden.”翻译成中文就是,所有的离别都是突然的。这话说得没错。”
All farewells should be sudden。他只不过是又干了一次。
2024年11月16日,我在月暗新的办公室见到杨植麟。这是月暗的第二个办公室,在创业之初,月暗在据此不远的搜狐大厦,上一家公司循环智能就在几层楼之隔的脚下。没有前台的办公区,杨植麟就坐在靠近门口的位置,一头乱发盯着笔记本电脑,弯着腰工作,也会时不时跟人站在门外电梯口低声聊天。他把公司会议室全部用摇滚乐队命名。而之后月暗的人在增加,估值在增长,他们搬进了另一个大楼,开发布会的地方也从The verve这样的名字,换成了“青州”这样的会议室。
和当初那个工位紧张,角落里堆满各种杂物的场景相比,现在宽敞明亮了许多,但他也不由得让人觉得这家公司开始接近一些互联网公司的样子。
杨植麟穿着一身Kimi卫衣出现在发布会。这是外界最近难得的交流机会。在发布会开始,他先介绍了月之暗面最新的推理模型k0-math。根据他的展示,k0-math已经在数学基准测试上对标OpenAI o1系列,在一些测试题上更是超越了对方。与此同源的技术也在做着产品化,预计一两周后会在kimi的探索版上应用。
杨植麟展示了多个例子。听他发布产品,会让人想到大学里做课题作业的场景,他说话慢悠悠,语气平缓。但你会发现,当他在介绍数学模型的技术意义时,开始有些不同,有点手舞足蹈。
“我当时第一次看到这个时候,我笑了很长一段时间。”杨植麟在介绍这个数学模型的“过度思考”案例时笑着说。
在当天对谈的大部分时候,他会笑着跟你聊天。头微微前倾,低着头盯着你,然后认真回答。
但有时候,他也会警觉起来。
“Kimi背后的模型被很多人讨论,它是用的开源模型还是自己做的?”我问到。
“我们自己做的。”这是所有问题里他回答最短的一个。且眼神变得犀利。
这次的数学模型是月之暗面少有的“发布”一个模型。k0的名字也是第一次有属于月之暗面的模型名字出现在大家眼前。相比于人们经常看到的其他家的模型系列,外界一直关心Kimi这个产品背后的模型。
但从杨植麟的各种思路来看,那种“原教旨”的对预训练的痴迷似乎没那么重要了。熟悉这家公司的会发现,月之暗面在模型能力上对外讲述的重点,此前是上下文,今天则是因o1而被重视的强化学习和它带来的推理能力。这些都是“单点”的能力,它从没有从一个基础模型的“全貌”来介绍过自己的技术方案,更像是把预训练这件事更务实的拆开来,哪部分重要,在现有的资源和能力的条件下可以去做,就做哪部分,讲哪部分。
他只关注他认定是重要的事。
这其实与外界的想象不同。在AGI的光环下,他领导的月暗被寄予了诸多想象,但事实上,它的竞争力并不来自于OpenAI那样的某种AGI疯狂信仰,而来自于方向明确后的快速执行。
他看起来对做一个像乔布斯那样单手挑破旧世界的人不太感兴趣,当旧的文化依然坚固,他不会去单枪匹马触碰它,但当巨大裂缝刚一出现,他会立刻动起来。2022年底当他一晚上算出月暗需要的一切条件和时间窗口期时,是这样;在Kimi上瞄准上下文去卷,也是这样;今天在o1发布后,迅速转向强化学习,并拿它彻底改造kimi,还是这样。
而保证这种快的方法是比其他人更好的判断力,更好地做抽象。
在此前的一个采访里,杨植麟曾提到他在谷歌的最大收获是,明白了AI这件事上不应该一直痴迷于雕花,而要做抽象。现在看来他把这个方法用在了一切重要的事情上:
比如AI最重要的两个事情是足够通用,和可以规模化,那么只要满足这两个条件,无论你是不是那个“开创者”,一切都会朝你而来;比如拿融资和与大佬一起发论文,本质就是双赢,你能努力做到让对方觉得跟你一起他也可以“赢”,一切就会朝你而来;比如做产品,就要用户的scaling,通过任何方式制造出来这样的声势,一切也就会朝你而来;比如做公司,就要用一个伟大颠覆性的愿景把资本和人才这两个生产要素拿到,否则,一切没有意义。
这样的抽象有时候需要一个人不去关心其他的事,而只关注自己的事,哪怕是诉讼的争议,哪怕是“投流”的争论,哪怕是产品更新上看起来的相对缓慢。
这当然是一种过于理想化的心无旁骛。作为一个聪明的晚生观察一个现有系统的运行机制、然后加以利用的阶段,这一切都运转良好。但当自己直接成为一个新的错综复杂系统里的一环时,用精确的计算来谋求资源的方法也变得复杂,因为自己也成为了更多精明高手们计算的对象,成了其中一个被争抢的资源。
“我相信我们自己观察的判断,我们聚焦在我们认为上限最高的事情。”杨植麟说。“我也不会去过多关注竞争本身。”他依然只想他自己的事,而这可能会,也可能不会让月之暗面实现它的登月目标,但可以肯定的是,它一定会继续给月暗带来更多的争议。
毕竟宏大思想里没有敌人,敌人来自于现实世界。
在这次难得的交流里,杨植麟也回答了各种问题,以下是此次群访的全文实录。为阅读体验有所删减调整。
1)如何看待近期业内讨论的人才回流大厂的现象。
我感觉这个问题我们好像没有遇到。(笑)
但可能有一些别的公司遇到,我觉得倒也正常,因为行业发展进入了一个新的阶段,从一开始可能有很多很多公司在做,变成了可能现在少一点的公司在做。那接下来可能就是大家做的东西逐渐不一样,我觉得这个是一个必然的规律。
2)Kimi近期的人才流失,如何看待?
这个问题是先问是不是,再问为什么。(笑)我们其实没有什么人才流失。这个问题和第一个问题相关。也和有一个提到聚焦Kimi的问题相关。就是我们其实主动选择做了一些业务上的减法,因为我觉得这个还是很重要的。也是可能我们过去一年比较大的lesson,就是你其实应该聚焦,把一些最重要的事情做好。然后我们做的还可以,比如我们始终保持在所有的大模型创业公司里面,人数最少。我们始终保持卡和人的比例是最高的。我觉得这个非常关键,我们不希望把团队扩得那么大。那么大其实对创新的影响是有致命性的伤害。但如果你想把团队保持在一定的规模,那你其实最好的方式是业务上做一些减法。
3)产品上如何聚焦的?
我们一开始确实也尝试过几个产品一块做,我觉得这个在一定的时期内有可能是有效的,但到后来你发现还是要聚焦,把一个产品做好,把它做到极致是最重要的。因为你砍业务等于本质上来说也是在控制人数,你不希望这个人数涨得特别猛。比如说我如果现在三个业务一起做,我就活生生把自己变成一个大厂,那我肯定是没有任何的优势。
然后很重要的另外一个点,我们也根据美国市场的情况去判断,判断哪个业务可能最后做的最大的概率是更高。你们问超级应用,我觉得其实已经出现了。ChatGPT 现在有超过5亿的月活,你说它是不是一个超级?我觉得至少是半个了。你有5亿人每个月在用啊。所以我觉得这个东西已经很大程度上被验证了。但比如说像是 Character.ai这种产品,一开始它其实是用户量蛮多,但是后面可能很难破圈。
所以在这个过程中我们也根据可能美国市场情况,包括我们自己观察到一些判断,我们其实就是去聚焦在我们认为这个上限最高的这个事情,而且他可能跟我们 AGI 的这个 mission 匹配,所以通过这种方式去控制你的这个业务,就是不要就是过于过多,然后控制你的人数不要太多,然后你真正聚焦就是能把这个核心的这种创新能力去做好。是这样的逻辑。
4)具体什么时间做的聚焦Kimi的决定?
大概今年二三月份,三四月份,大概那个区间,一是基于美国市场判断,二是基于我们自己的观察。以及基于我们的 lesson 本身,做减法不是疯狂的做加法。
5)谈一谈预训练的情况?
我觉得预训练还有空间,我觉得还有可能还有半代到一代模型的空间。这个空间基本上可能会在明年释放出来。明年基本上领先的模型会把预训练做到一个比较极致的阶段。今天我们去看最好的模型,它可能还大概有空间可以去压榨,但是我们判断接下来可能最重点的东西还是会在强化学习。它的范式上可能会产生一些变化。
6)你好像没谈你们自己的预训练,外界好奇你们是自己做还是开源。
我们自己在做。
7)像你这么聪明的人,是不是已经有点被scaling law这样的东西给限制住了。
Scaling law会不会是一个天花板?其实我觉得这个我相对来说比较乐观一点。核心就在于说原来你用静态数据集,其实你是比较简单粗暴的使用方式,那现在其实你用强化学习的方式,很多情况下是有人在参与这个过程,但是人他没有办法说给你标注那么多数据,他不可能把每道题这个具体的思路,每一道都给你标出来。所以你其实是用 AI 本身去把人的东西加上一个杠杆,然后比如说你可能标 100 条数据,你就能产生非常大的作用,因为剩下它都是在自己思考。我觉得这个路线其实确定性是比较高的,很多时候它是一个真正把它调出来的过程。我觉得他上限是很高。
8)你们还做多模态么。
我们也在做,在内测,已经有人已经用上。我是这样看的,我觉得 AI 接下来可能最重要是思考和交互这两个能力,然后我觉得思考重要性可能会远大于交互。不是交互不重要,但思考决定上限。然后交互我觉得是一个必要条件。
9)怎么看跟豆包的竞争。
这个问题有意思。对我们来说,我们还是更希望是关注在怎么给用户真的产生价值,我不希望我们可能过多的去关注竞争本身,因为竞争本身它并不产生价值,我觉得我们只有去迭代一个更好的技术和产品,然后给用户创造更大价值,这个可能才是我们现在最核心的问题,所以我们会更聚焦在怎么去提升模型的思考能力,思考推理能力,然后通过这个东西给用户带来更大的价值。要做正确的事,而不是专门做不一样的事。(笑)
10)你们目前最核心的任务是什么。
我觉得最核心的任务就是提升留存,当然,或者说把留存作为一个重要的衡量指标。因为我觉得它基本上和你的技术成熟度或者技术的水平也是一个正相关的过程。我觉得还有非常大的提升的空间。因为今天来看还是一个初级阶段,每年都有大的进步。比如我刚才说的思考能力和交互,当我们把这些东西做得更好之后,我觉得留存也会进一步上升,就是这个产品的好处就是我觉得基本上你的模型能力跟你的产品只要是高度正相关的,所以他是可以统一的。
11)o1转换带来范式改变,你们如何做的判断和调整。
o1的变化其实它是可以预测的,我们很早在说接下来推理占的比例会远远超过训练,本质上说的是一个事情。因为它基本上是必然的,就你如果去分析底层原理,它是必然会出现的。你没有那么多数据训练,你肯定是要生成数据,生成数据肯定是强化学习,本质是一样的。我觉得这个是我们很早看到的。只不过在早期预训练的很多红利没有被完全发挥出来,所以你可能很关注怎么通过Next—Token prediction能压缩出来更多的智能。但是我们更早的去铺垫比如说在强化学习上我们能做什么,不管是在人才上还是在技术的储备上,更多的是这样的一个过程。
12)你说的布局大概什么时候开始。
你要看不同的布局的程度。可能比如人才,像我们其实从去年就开始,然后中间其实你也会有不同的过程,比如一开始可能是RLHF,但它上限可能没有那么高。需要不停去探索一些可能新的方式,更规模化的方式。
13)你之前说长文本是登月第一步,那这个数学模型是什么。
第二步。(笑)
14)中美的差距有变化么。
差距我觉得相对还是一个常数。
15)Kimi的投流成本很高,你怎么看,能做到良性的商业化么。之前你提到抽成的方式。
适当的投放是需要的。我觉得有办法,但现在对我们来说关键是留存。
16)留存到多少是你们的目标。
我觉得永无止境。
17)看起来你刚才说的意思是你对目前投放带来留存并不是不太满意。
我整体来看相对其他产品是有优势的。我的意思是相对于这个产品的终极形态,我们在留存上还有很大空间。
18)Kimi的出海怎么想。
我觉得先聚焦,后全球化。要更耐心。