OpenAI 正式发布 GPT-4.1

#GPT4.1系列登场#OpenAI 于今天凌晨推出了三款 GPT-4.1 系列模型,号称当前最强大的编程模型之一。 直接先来看三款模型的 各自特点:

· GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。

· GPT-4.1 mini:小型高效模型,在多个基准测试中超越 GPT-4o,同时将延迟降低近一半,成本降低 83%,适合需要高效性能的场景。

·GPT-4.1 nano:OpenAl 首个超小型模型,速度最快、成本最低,拥有 100 万 token 上下文窗口,适用于低延迟任务如分类和自动补全。

具体来看,GPT-4.1 系列拥有以下特点:

·能够自主完成复杂编码任务

·前端开发能力提升

·减少多余代码修改

·更好地遵循 diff 格式

·工具调用更加一致稳定

而在多项基准表现中,GPT-4.1 都拥有较强的表现:

·在真实软件工程能力的评估标准 SWE-bench Verified 基准测试中,GPT-4.1 得分 54.6%,较 GPT-4o 提升 21.4 个百分点,较 GPT-4.5 提升 26.6 个百分点。

·Windsurf 的创始人兼 CEO Varun Mohan 透露,其内部基准测试显示,GPT-4.1 性能比 GPT-4 提升了 60%。

·在多项基准测试(MultiChallenge、IFEval、Video-MME)中,GPT-4.1 的表现依然力压 GPT-4o。

·「以小博大」的 GPT‑4.1 mini 在多项测试中甚至超越 GPT-4o,同时在保持与 GPT‑4o 相似或更高智能表现的同时,延迟几乎减半,成本降低了 83%。

·GPT‑4.1 nano 在 MMLU、GPQA 和 Aider polyglot 编程测试中的得分分别为 80.1%、50.3% 和 9.8%,均高于 GPT-4o mini。

值得一提的是,GPT‑4.1 在 diff 格式方面经过专门训练,更能稳定输出修改片段,节省延迟与成本。此外,OpenAI 已将 GPT‑4.1 的输出 token 上限提升至 32768 tokens,便于应对全文件重写的需求。

目前,GPT-4.1 只能通过 API 调用,不会直接出现在 ChatGPT 里。但好消息是,ChatGPT 的 GPT-4o 版本已经悄悄加入了 GPT-4.1 的部分功能,未来还会增加更多。

此外,GPT‑4.5 Preview 将于 2025 年 7 月 14 日下线。开发者 API 的核心模型也将逐步替换成 GPT-4.1。

另据 The Information 援引三位参与测试的知情人士消息称,OpenAI 计划本周推出的全新 AI 模型将能跨学科整合概念,提出涉及从核聚变到病原体检测等全新实验思路。