阶跃星辰推理模型stepr-mini上线:aime等数学基准测试成绩超o1-preview-品玩

品玩1月20日讯,据阶跃星辰官方消息,自研推理模型 Step Reasoner mini现已上线、该模型在 AIME 和 Math 等数学基准测试上成绩超过了 o1-preview。

Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。

Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。

打开APP阅读更多精彩内容