他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
编辑丨墨墨
综合自丨量子位、南风窗、鞭牛士、极目新闻等
· · ·
用几百万美元完成几十亿美元的项目?最近美国硅谷的AI巨头们的神经已经错乱了。
来自“东方的神秘力量”DeepSeek发布的R1模型,它在第三方测试中,表现秒杀了对面一大片的人工智能巨头。
DeepSeek在很多方面的表现和chatGPT的表现不相上下。在中文领域,DeepSeek的表现甚至更胜一筹。
用中文向DeepSeek提问,DeepSeek可以给出非常深度的回答,完全没有模棱两可的“一眼AI式感觉”。
几天之内,DeepSeek在美国应用商店的下载排名高居第一,超越了AI届的头号老大ChatGPT。这让美国科技行业的无敌光环受到威胁,美国股市周一大跌。
可就在1月28日凌晨,DeepSeek称遭受大规模恶意攻击!
DeepSeek官网的服务状态页面显示:“近期DeepSeek线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。”
1.
/ “中国模型”改变游戏规则,震动华尔街 /
在DeepSeek面世之前,人们普遍认为AI是一个极其消耗算力的产业,所以,在这一轮AI热潮里,英伟达成为最大赢家,全球AI公司都要大批量采购英伟达的先进芯片。
但是,DeepSeek的横空出世改变了游戏规则。
它展示了一个名为 R1 的类似 ChatGPT 的人工智能模型,该模型具有所有熟悉的功能,但运行成本仅为 OpenAI、谷歌或 Meta 的热门人工智能模型的一小部分:
该模型每百万个token的查询成本仅为0.14美元,而OpenAI的成本为7.50美元,便宜了98%,而且允许开源。
DeepSeek不仅开了源,还把训练R1的方法全都在论文里公开了,一把掀开了某些AI巨头的遮羞布。
DeepSeek表示,其基础模型的计算能力仅花费了 560 万美元,而美国公司在人工智能技术上花费了数亿或数十亿美元。
美国多年来一直以国家安全问题为由限制向中国供应高功率人工智能芯片,导致DeepSeek只能使用英伟达性能相对较低的芯片。
但DeepSeek通过算法创新、提升硬件利用效率等方式,在功率不足的人工智能芯片上实现其低成本模型,这打破了AI对于算力高需求的神话,引发了整个AI产业链的价值重估。
在DeepSeek的冲击下,当前全球最炙手可热的英伟达应声落地,1月28日,英伟达的股价暴跌17%。单日市值蒸发5950亿美元,接近6000亿美元,相当于人民币4.3万亿,创美股单日跌幅最高记录。
除了英伟达,其他芯片股也遭受重创,博通下跌17%,市值跌去1800亿美元,相当于人民币1.3万亿,市值跌破万亿美元。
台积电下跌13%,市值跌去1500亿美元,相当于人民币1.1万亿元,市值跌破万亿美元。
主导星际之门计划的软银集团股价一度下跌近6%,创下去年11月1日以来的最大跌幅;藤仓大跌超8%,东京电子和Disco均跌超3%。
美国科技行业的无敌光环受到威胁,除了科技股,华尔街对非科技公司投资的巨大变化。近年来,由于人工智能数据中心需要大量电力,能源公司的股价大幅上涨,但在27日,它们全都暴跌。
因为在AI圈爆火,开发DeepSeek背后的中国公司深度求索也“浮出水面”,硅谷同行称其为“东方神秘力量”。
2.
/ DeepSeek背后的操盘手
是来自金融圈的大佬? /
DeepSeek的开发者为杭州深度求索人工智能基础技术研究有限公司(简称“深度求索”),该公司成立于2023年7月份,由宁波程恩企业管理咨询合伙企业(有限合伙)和梁文锋共同持股。
梁文锋是湛江市吴川市覃巴镇米历岭村人,父母都是小学语文老师。梁文锋一直是学校里的“尖子生”,并在数学学科表现出极大天赋,初中时期就学完了高中数学,甚至开始学大学的数学。
2015年,毕业于浙江大学电子信息工程专业的梁文峰创办了幻方量化基金公司。
和传统基金公司不同的是,量化投资不靠人力来做买卖抉择,而是在大数据基础上,依靠人工智能来买卖股票。
一位幻方量化的员工曾在公司博客中写道,老板本人每天都在写代码、跑代码。这是他们与其他公司的不同之处。
幻方量化成立仅仅6年,基金规模就突破了1000亿元,成为国内量化私募的"四大天王"之一。
由于量化投资规模越来越大,复杂的模型计算开始面临算力瓶颈,梁文峰的团队开始寻求大规模算力解决方案,为后来推出DeepSeek奠定了基础。
在基金公司赚取的利润支撑下,梁文峰开始“不务正业”,大量采购英伟达的芯片,一家基金公司囤积了超过1万张芯片。
这个数量比国内很多互联网大厂还多,这也是梁文峰转型的开始。
2023年初,公司资金管理规模已小于300亿,不再处于量化投资的头部。与此同时,公司加速向AI转型。
2023年7月,梁文峰正式成立DeepSeek,进军通用人工智能领域,至今从未对外融资。
最近DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama 3的开源模型,震撼了整个AI圈。
紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。
全网都在好奇,DeepSeek背后究竟是一只怎样的团队?
3.
/ 没有奇才但要打造奇才!
DeepSeek核心成员是应届生 /
“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”
此前,OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇用了“一批高深莫测的奇才”,对此,梁文峰在接受自媒体采访时也曾透露过,并没有什么高深莫测的奇才,都是来自Top高校的毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
查询各种资料发现,梁文峰说的是实话。DeepSeek里面应届生、在读生,特别是来自清北的应届生在其中非常活跃。
比如2024年12月底,有媒体报道,雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。
这位95后“少女”名叫罗福莉,过去两年供职于DeepSeek团队,曾参与DeepSeek大模型的关键研发。
罗福莉在北京大学读计算语言学硕士期间,曾因在ACL(国际计算语言学协会)学术会议上发表多篇论文而受到关注。
毕业后,她进入阿里巴巴达摩院,从事预训练语言模型相关的工作。2022年加入深度求索母公司幻方量化,之后成为DeepSeek大模型项目成员。
DeepSeek-v3的出现,让很多人以为,DeepSeek团队必然有“大牛”坐镇。但罗福莉走红却让外界发现,真正的“大牛”是那些像她一样的年轻人。
DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。
他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
他们中有的参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。
在组建DeepSeek团队时,梁文锋招人的原则是“看能力,而不是看经验”。
之前梁文锋的访谈里提到过这只团队的运作结构:
不做前置的岗位分工,而是自然分工;
每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目;
当一个idea显示出潜力,也会自上而下地去调配资源。
在AI圈爆火后,“找他们的人踏破门槛了”,在深度求索的“官方交流98群”群公告写道,“暂不对外进行项目合作,不提供私有化部署及相关支持服务;DeepSeek将集中研发精力奉上更强的模型,尽情(敬请)期待!”
外界对神秘的DeepSeek充满了好奇和期待,而DeepSeek是家极为低调的创业公司,一度游离在主流视野之外。
即使在2024年12月上线并同步开源DeepSeek-V3模型之后突然爆火。深度求索却选择了“深潜”,不想与外部有任何形式的交流互动。
正是这样一家低调的公司不仅对全球AI产业带来了颠覆性效应,而且这群年轻人的参与还让大家看到了中国经济向高科技转型升级的希望所在。