机器之心报道
编辑:蛋酱、佳琪
动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。
2024 年底,微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型(SLM)。仅用了 40% 合成数据,140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。
刚刚,微软又隆重介绍了 Phi-4 模型家族的两位新成员:Phi-4-multimodal (多模态模型)和 Phi-4-mini(语言模型)。Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析,而 Phi-4-mini 专为速度和效率而设计,两者都可供智能手机、PC 和汽车上的开发人员使用。
项目地址:https://huggingface.co/microsoft/phi-4
在技术报告中,微软对这两个模型进行了更加详细的介绍。
Phi-4-Multimodal 是一个多模态模型,它将文本、视觉和语音 / 音频输入模态整合到一个模型中。它采用新颖的模态扩展方法,利用 LoRA 适配器和特定模态路由器,实现了多种推理模式的无干扰结合。例如,尽管语音 / 音频模态的 LoRA 组件只有 46 亿参数,但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(视觉 + 语言)、(视觉 + 语音)和(语音 / 音频)输入的场景,在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。
Phi-4-Mini 是一个拥有 38 亿参数的语言模型,在高质量的网络和合成数据上进行了训练,其性能明显优于近期类似规模的开源模型,并在需要复杂推理的数学和编码任务上与两倍于其规模的模型不相上下。这一成就得益于精心设计的合成数据配方,该配方强调高质量的数学和编码数据集。与上一代产品 Phi-3.5-Mini 相比,Phi-4-Mini 的词汇量扩大到了 20 万个,从而能更好地支持多语言应用,同时还采用了分组查询功能,从而能更高效地生成长序列。
Phi-4-Multimodal 是这家公司的首个多模态语言模型,微软表示:「Phi-4-multimodal 标志着我们人工智能发展的一个新里程碑。
此外,微软还进一步训练了 Phi-4-Mini 以增强其推理能力。结果显示,它与 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等规模更大的先进推理系统相媲美。
接下来,让我们看看技术细节。
模型架构
两个模型都使用 tokenizer o200k base tiktoken ,词汇量为 200,064 个,旨在更高效地支持多语言和多模态输入和输出。所有模型都基于仅解码器的 Transformer,并支持基于 LongRoPE 的 128K 上下文长度。
语言模型架构
Phi-4-mini 由 32 层 Transformer 组成,专为速度和效率而设计,Phi-4-Mini 还有一些特殊的「省内存」技巧:
首先是分组查询注意力机制(GQA),模型在处理长序列时能够快速地聚焦于关键信息片段。这优化了长上下文生成时的 KV 缓存。具体来说,模型使用 24 个查询头和 8 个 K/V 头,将 KV 缓存消耗减少到标准大小的三分之一。
其次是输入 / 输出嵌入绑定技术,实现了资源的优化利用,同时与 Phi-3.5 相比提供了更广泛的 20 万词汇覆盖。
此外,在 RoPE 配置中,使用了分数 RoPE 维度,确保 25% 的注意力头维度与位置无关。这种设计能让模型更平滑地处理较长的上下文。
Phi-4-Mini 峰值学习率的计算公式为:
LR*(D) = BD^(-0.32),
其中 B 是超参数,D 是训练 token 的总数,通过调整 D = 12.5B、25B、37.5B 和 50B 来拟合 B 值。
多模态模型架构
Phi-4-Multimodal 采用了「Mixture of LoRA」技术,通过整合特定模态的 LoRAs 来实现多模态功能,同时完全冻结基础语言模型。该技术优于现有方法,并在多模态基准上实现了与完全微调模型相当的性能。此外,Phi-4-Multimodal 的设计具有高度可扩展性,允许无缝集成新的 LoRA,以支持更多模态,而不会影响现有模态。
该模型的训练过程由多个阶段组成,包括语言训练(包括预训练和后训练),然后将语言骨干扩展到视觉和语音 / 音频模态。
对于语言模型,研究者使用高质量、推理丰富的文本数据来训练 Phi-4-Mini。值得注意的是,他们加入了精心策划的高质量代码数据集,以提高编码任务的性能。
语言模型训练完成后,研究者冻结了语言模型,并实施「Mixture of LoRA」技术,继续多模态训练阶段。
具体来说,在训练特定模态编码器和投影器的同时,还训练了两个额外的 LoRA 模块,以实现与视觉相关的任务(如视觉 - 语言和视觉 - 语音)和与语音 / 音频相关的任务(如语音 - 语言)。它们都包含预训练和后训练阶段,分别用于模态对齐和指令微调。
Phi-4-Multimodal 模型架构。
性能评估
Phi-4-multimodal
虽然 Phi-4-multimodal 只有 5.6B 参数,但它将语音、视觉和文本处理无缝集成到一个统一的架构中,所有这些模态都在同一个表征空间内同时处理。
Phi-4 多模态能够同时处理视觉和音频。下表显示了在图表 / 表格理解和文档推理任务中,当视觉内容的输入查询为合成语音时的模型质量。与其他可以将音频和视觉信号作为输入的现有最先进的全方位模型相比,Phi-4 多模态模型在多个基准测试中取得了更强的性能。
图 1:所列基准包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。进行对比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。
Phi-4-multimodal 在语音相关任务中表现出了卓越的能力。它在自动语音识别 (ASR) 和语音翻译 (ST) 方面都优于 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。该模型以令人印象深刻的 6.14% 的单词错误率在 Huggingface OpenASR 排行榜上名列前茅,超过了 2025 年 2 月之前的最佳表现 6.5%。此外,它是少数几个成功实现语音摘要并达到与 GPT-4o 模型相当的性能水平的开放模型之一。该模型在语音问答 (QA) 任务上与 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因为模型尺寸较小导致保留事实 QA 知识的能力较弱。
图 2:Phi-4 多模态语音基准。
在下方视频中,Phi-4-multimodal 分析了语音输入并帮助规划西雅图之旅: