摘要:
与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同,DeepSeek与科技巨头间并无直接关系。不过,DeepSeek自身的算力储备却堪与大厂比肩。
凤凰网科技 出品
作者|Danny
编辑|董雨晴
被热议的东方力量
神秘的东方力量再次震惊了世界,这次是大模型。
12月26日,国内私募机构幻方量化旗下的DeepSeek(深度求索)发布新一代开源大模型DeepSeek-v3,深度求索在技术报告中提到,作为一款参数量高达 671B 的大型语言模型,DeepSeek-V3在预训练阶段只用 2048 块 GPU 训练了不到 2 个月,总计 266.4 万个 GPU 小时,且只花费了 557.6 万美元(约4070.1万元人民币)。
这意味着DeepSeek-V3的训练成本约为GPT-4o的二十分之一。Anthropic的CEO达里奥·阿莫迪不久前曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将上升至100亿美元甚至1000亿美元。
性能方面,据DeepSeek-V3 技术报告称,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,DeepSeek-V3 也毫不逊色,并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。
广发证券分析称,DeepSeek-V3算力成本降低的原因有两点:第一,DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题;第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。
行业外少有人知道的是,DeepSeek也是大模型价格战的最早发起者,被称为“AI界拼多多”。2024年5月,DeepSeek发布的DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
在DeepSeek-V3的定价上,API定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元,与字节Doubao-pro-256k定价输入每百万tokens 5元,输出每百万tokens 9元的水平相当,在国产模型中性价比较高。
“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型。”著名人工智能科学家和特斯拉前人工智能和自动驾驶视觉总监、OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)评价DeepSeek-V3的表现时称,“如果此模型还能通过各项评估,那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”
“我一直在关注DeepSeek。去年他们拥有最好的开源编码模型之一。卓越的开源模型给前沿的大语言模型商业公司带来了巨大的压力,迫使他们加快步伐。”英伟达高级科学家范麟熙(Jim Fan)认为,在竞争激烈的人工智能领域中,生存本能是推动突破的主要动力。
千亿量化私募的AI创业
在众多中国大模型创业公司中,Deepseek的路线最不同。它的中文名是“深度求索”,为知名私募巨头幻方量化创立的子公司。
2023年4月,幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。当时幻方就表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。
与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同,DeepSeek与科技巨头间并无直接关系。不过,DeepSeek自身的算力储备却堪与大厂比肩。
有云计算专家提出,1万枚英伟达A100芯片是做AI大模型的算力门槛。当中国云厂商受限于紧缺的GPU芯片时,幻方却早早押中了大模型赛道的入场券。据报道,除商汤科技、百度、腾讯、字节、阿里等科技巨头外,幻方也手握着超1万枚GPU。
幻方量化和Deepseek创始人梁文锋曾在媒体采访中表示,幻方对算力的储备并不突然。在2019年,幻方就已投资2亿元自研深度学习训练平台“萤火一号”,搭载了1100块GPU。到了2021年,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。一年后,OpenAI发布ChatGPT的公开测试版本,拉开全球新一轮AI热潮的序幕。
事实上,在量化投资领域,幻方也是一个特立独行的存在。幻方量化一度是中国首家突破千亿私募的量化大厂,准确的说也是迄今为止业内唯一规模曾迈过千亿大关的量化私募。
“我们做大模型,其实跟量化和金融都没有直接关系,”被媒体问及为什么一家量化基金选择入局大模型时,梁文锋解释道,“当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”
公开资料显示,梁文锋是一个极致的80后技术理想主义者,从幻方时代,就在幕后潜心研究技术,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。值得一提是,这家公司还曾对外招聘文科人才,职位定位为“数据百晓生”,提供人类历史、文化、科学等相关的知识来源,和数据工程师一起构建完善的世界语言知识库。
“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。我们将充分而持续地投入,不做中庸的事,用最长期的眼光去回答最大的问题。”梁文锋曾表示。
在接受媒体《暗涌》的采访时,梁文锋表示,降价一方面是因为在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。
“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋称。