凤凰网科技讯(作者/杨睿琪)4月29日,通义千问团队宣布推出Qwen3系列大语言模型,包含多个参数规模的密集模型(Dense)与混合专家模型(MoE),并全面开源。
该系列模型引入“思考模式”与“非思考模式”两种思考模式,前者支持复杂问题分步推理,后者提供快速响应。
在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个 token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个 token,涵盖了119种语言和方言。
此外,据官方介绍,通义千问开源了两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约300亿总参数和30亿激活参数的小型MoE模型。
六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在Apache 2.0许可下开源。
据官方表示,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
技术细节方面,Qwen3采用四阶段后训练流程,整合强化学习与指令微调,增强模型推理及多任务处理能力。
团队表示,未来计划从多个维度提升模型,包括优化模型架构和训练方法,以实现几个关键目标:扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以进行长周期推理。