OpenAI o3/o4 mini 模型正式发布

今日凌晨,OpenAI 正式推出了 o3/o4 mini 模型,OpenAI CEO Sam Altman 直呼「o3 达到或接近天才的水平」。快速过一次 OpenAI o3/o4 mini 的亮点,具体如下:

· o 系列迄今最智能的模型,推理能力大幅提升,思考时间越长,效果越好。

· 首次将图像直接融入思维链,用图片「思考」,能直接调用工具处理图片。

· 首次全面支持网页搜索、文件分析、Python 代码执行、视觉输入深度推理和图像生成等功能。

· 成本效率上优于前代,o3 在相同延迟和成本下性能更强。

在性能测试具体表现上:

· o3 在编程、数学、科学和视觉感知领域创下新纪录:视觉任务准确率达 87.5%,MathVista 也有 75.4%。

· 外部专家评估显示,o3 在编程、商业咨询和创意构思的重大错误率也比 o1 低 20%,在生物学、数学和工程领域能生成并批判性评估新颖假设。

· o4-mini 「体型更小」,优化了快速、低成本推理,在 AIME 2024 和 2025 数学测试中准确率分别为 92.7% 和 93.4%,在非 STEM 和数据科学任务中优于 o3-mini。

· o3 和 o4-mini 在 AIME、Codeforces、GPQA 和 MMMU 等测试中全面超越前代,且指令遵循和响应质量也都显著提升,结合记忆功能和历史对话引用,回答更个性化、更相关。

成本方面,o3 输入每百万 tokens(大约 75 万个词,长度超过《指环王》系列)的费用为 10 美元,输出每百万 tokens 的费用为 40 美元;o4-mini 输入每百万 tokens 的费用为 1.10 美元,输出每百万 tokens 的费用为 4.40 美元。

另外,OpenAI 还推出了一款轻量级终端编码 Agent —— Codex CLI。基于 o3 和 o4-mini 的推理能力,Codex CLI 支持多模态输入,已在 GitHub 开源。Codex 有两种运行模式:

· 「建议模式」(默认):提出命令供用户确认;

· 「全自动模式」:禁用网络访问,让 Agent 自主工作但保持安全。

未来,o3/o4 mini 在模型选择器上取代 o1 等模型。而用户使用权限具体情况如下:

ChatGPT Plus、Pro 和 Team 用户即日起可使用 o3、o4-mini 和 o4-mini-high,企业与教育用户一周后获访问权限。另外,o3-pro 预计数周内发布。

免费用户可通过「Think」模式使用 o4-mini,速率限制不变。

开发者则通过 Chat Completions API 和 Responses API 访问,支持推理摘要和函数调用优化,即将支持网页搜索等内置工具。