50 美元
创造奇迹?
DeepSeek 以低成本训练出高性能模型成为开年重头戏,但没想到春节之后还有高手,最近李飞飞团队用 50 美元「复制」DeepSeek R1 的词条也一度冲上了热搜。
但很快,细心网友从公布的研究论文中发现,这个说法颇有断章取义之嫌,所谓李飞飞团队研发出来的 S1-32B 推理模型实际上是在 Qwen2.5-32b-Instruct 模型基础上进行监督微调得来。
项目地址:https://github.com/simplescaling/s1
而微调模型与从零造模型的区别不亚于玩了一个文字游戏。
甚至研究论文压根并未提及 50 美元成本,论文中提到模型在 16 块 Nvidia H100 GPU 上训练了 26 分钟,这可能是最靠近 50 美元说法的成本。但这笔支出还未计入其他数据、设备、消融实验等费用。
深入研究这篇论文还发现,除了监督微调,研究团队引入了测试时缩放(Test-time Scaling)技术,特别是「预算强制」(budget forcing)方法。
简单点说,「预算强制」就是当模型生成的推理标记超过预设的最大限制时,通过添加「结束思考」标记来强制模型停止推理,并生成最终答案。
而当需要模型花费更多计算资源进行更深入的推理时,通过抑制「结束思考」标记的生成,并附加字符串「Wait」,促使模型继续思考和检查当前答案。
通过调控推理时间,让模型能在测试阶段投入更多算力来检验和优化答案,从而提升推理表现。
因此,s1-32B 在多个推理任务(如 AIME24 和 MATH500)上表现出色,甚至超过了 OpenAI 的 o1-preview 模型。其中,s1-32B 在 AIME24 上的准确率达到了 56.7%,展现了测试时 scaling 的显著效果。
不过,无论在哪个测试集,s1-32B 均未超过正式版 o1 和满血版 DeepSeek-R1。
并且,s1-32B 能取得如此优异的成绩,很大程度上得益于研究团队精心打造的 s1K 数据集。
这个包含 1000 个高质量、多样化且富有挑战性的问题集不仅极大提高了模型的泛化能力,还融入了从 Google Gemini Thinking Experimental 模型中提取的「思考过程」。
值得注意的是,这种低成本训练强大推理模型的探索并非个例。
近期,来自加州伯克利大学在读博士 Jiayi Pan(潘家怡)的研究团队更是成功地以极低的成本(低于30 美元)复现了 DeepSeek R1-Zero 的关键技术——「顿悟时刻」。
该团队通过强化学习重构了 DeepSeek 的推理模型,仅依靠基础语言模型、简单提示和奖励机制就训练出了 TinyZero。结果显示,从 1.5 亿参数规模开始,模型就能够学会搜索、自我验证和修正解决方案。
而 TinyZero 项目同样基于 Qwen2.5 系列模型构建,成本据称约为 30 美元。
《南华早报》的最新报道也援引了潘家怡的说法,以如此低的成本——大约相当于在纽约熟食店买一个三明治的价格——训练出强大的推理模型,关键在于基础模型。
实际上,Qwen 系列一直在海内外开源社区颇受好评。
s1 和 TinyZero 之所以都选择阿里的 Qwen2.5,也是因为该模型的开源代码允许任何人访问和修改基础模型,同时它的性能更是处于顶尖水平。
近日,全球最大 AI 开源社区 Huggingface 发布了最新的开源大模型榜单(Open LLM Leaderboard),其中榜单显示,其排名前十的开源大模型全部是基于 Qwen 开源模型二次训练的衍生模型。
据悉,Open LLM Leaderboard 是目前全球最具权威性的开源大模型榜单,其测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等。
而通义千问 Qwen 大模型已经成为全球最大的开源模型族群。
在海内外开源社区中,Qwen 的衍生模型数量已突破 9 万,超越美国 Meta 公司旗下的 Llama 系列开源模型,位居全球第一。
在 Hugging Face 2024 年的开源模型下载中,Qwen 模型系列中的 Qwen2.5-1.5B-Instruct 的下载量占总下载量的 26.6%,是全球下载量最高的开源模型。
此外,此前爆火的 DeepSeek 公司基于 R1 推理模型蒸馏了 6 个模型开源给社区,其中有 4 个模型来自 Qwen。
可以说,正是基于这样的开源基础模型,才让更多研究者得以在其基础上进行探索。
虽然「50 美元复制 DeepSeek R1」的说法可能有夸大之嫌,但这种低成本创新的探索方向也为未来 AI 发展提供了一个更具包容性和可能性的路径。