DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对蒸馏的工艺和上限尚未形成共识,因此也带来了对该技术更为系统的探索工作。
目录
01. 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是「投机取巧」 ?
极具性价比的蒸馏+SFT 真的能提高大模型的推理能力吗?...
02. 蒸馏+SFT 虽实用,但 bug 也不小?
知识蒸馏+SFT 的局限性由何而来?...
03. 蒸馏也有 Scaling Law?
什么才是蒸馏效果提升的关键?蒸馏存在什么情况下才有性价比?...
01 「知识蒸馏」+SFT 做推理模型,到底是「正经方法」还是」投机取巧」 ?
1、蒸馏技术在大模型领域广泛使用,且近期在 DeepSeek R1 的技术报告中取得了尤为明显的成效。
① 在 R1 的技术报告中,DeepSeek 团队展示了他们如何通过蒸馏将 R1 模型的推理能力迁移到更小的密集模型中,并让这些模型获得优越的推理能力。
② 研究者将 DeepSeek-R1 作为教师模型,通过其生成的 800K 样本作为训练属于,用其对 6 个在 AI 社区中广泛使用的规模较小的密集模型(Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct)进行 SFT,并得到了 DeepSeek-R1-Distill-Qwen-7B 等 6 个蒸馏后的模型。
③ 蒸馏后的模型在推理任务上表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 基准测试中达到了 55.5%的 pass@1 分数,超过了 QwQ-32B-Preview。
2、R1 所采用的「蒸馏」方法指利用较强模型蒸馏出高质量样本,进而用于较小模型的 SFT,从而使较小的模型获得更强能力的操作。
① 这种方法通过教师采样生成序列,以 SFT 的方式训练学生模型,因此也被称为硬蒸馏(Hard Distillation)或「蒸馏+SFT」。
3、这种蒸馏技术在 o1 模型复现工作和 LLaMA 系列等工作中均被验证过有效性,虽然存在版权争议,但在工业应用场景被视为一种性价比极高的方案。
① 此前,有工作发现 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多个模型大多存在不同程度的蒸馏。
② 这种技术的性价比体现在用强大的模型生成高质量数据,让企业打造更精细化的垂直业务模型,或是让研究者通过数据复现更强的推理模型,推动学术进展。
4、以 R1 工作为代表的成果证明了高质量数据除了让蒸馏得到的小模型获得领域知识,还能进一步提升推理能力,因此引发了许多探索。
① 上海交大的研究者在 LIMO 工作中论述了小模型的推理能力可以通过精心设计的少量样本激发出来,而不是简单地通过大量的数据训练获得。
② 该工作假设预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过极少量但精心设计的认知过程示例(即高质量 CoT)来激发。
③ 该工作用 817 条精心设计的训练样本微调 Qwen2.5-32B-Instruct 得到的 LIMO 模型实现了 AIME 2024 基准测试中准确率从 6.5%到 57.1%的提升,在 MATH 500 基准测试中实现了从 59.2%提升至 94.8%。
④ 李飞飞的 s1 工作同样采用少量高质量数据微调 Qwen2.5-32B-Instruct,实现超过 o1-preview 的推理能力。
02 蒸馏+SFT 虽实用,但 bug 也不小?
DeepSeek R1 的技术报告虽然展示了蒸馏 SFT 对小模型推理能力提升的有效性,且需要比强化学习更少的计算资源。但该工作同样强调如果要超越智能的边界,可能仍然需要更强大的基础模型和更大规模的强化学习......