机构：GPT-o1 在深度思考模型测试中成绩领先 1 月 13 日，_凤凰网科技

机构：GPT-o1 在深度思考模型测试中成绩领先

1 月 13 日，THU 基础模型公众号发布推文，公开了对各家旗舰基础模型进行测试的结果。

官方表示，为了全面评估这些模型在数学推理方面的能力，他们结合2025年考研数学（一、二、三）的试题，对各家深度推理模型进行了严格的评测。

此外，为了确保评测的全面性，他们对各家的旗舰基础模型进行了也同样的测试。此次测试，他们从六家厂商中，选择了 13 个模型。

测试结果显示，GPT-o1 仍然处于领先的地位，是唯一一个达到 140 分以上的模型，相较于排名末位的 GPT-4，分数优势高达 70 分。位于第二梯队（130 分以上）的模型有 GLM-zero-preview和 QwQ，分别斩获 138.7 分和 137.0 分；DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 则处于第三梯队（120 分以上）。

另外，官方表示，在缺乏深度思考能力辅助的情况下，仅凭逻辑推理能力，DeepSeek-v3 作为基础模型，已经能够跻身第三梯队，这说明基础模型和深度思考模型之间的能力并非界限分明。