DeepSeek-R1 网页端稳定性测评:天工AI位居总榜第二

近日,第三方AI评测机构SuperCLUE发布了《DeepSeek-R1网页端稳定性测评报告》,「天工AI」在第三方平台的测评中,取得了总榜排名第二、完整回复率排名第二、准确率排名第二的优异成绩。

#背景介绍

随着人工智能技术的迅速发展,推理模型DeepSeek-R1凭借卓越性能和复杂任务处理优势迅速走红。但因用户激增和外部攻击,其稳定性问题日益显现。为此,多家第三方平台推出支持DeepSeek-R1的优化服务,致力于提供更稳定、高效的体验。

为了给用户提供一份全面、客观的参考,帮助他们选择最适合自身需求的服务平台,SuperCLUE对支持DeepSeek-R1的多个第三方平台进行了稳定性测评。本次测评选择了12个第三方平台,使用20道原创小学奥数推理题来考察在各个第三方平台上使用DeepSeek-R1的实际效果,从回复率和准确率等方面进行评估,以下为详细测评报告。本次测评体验主要针对第三方平台的网页版本;当前是首次体验测评,仅代表发布时点的稳定性;后续计划对该类平台,包括网页端、API、APP、本地部署版本等进行跟进测评。

排行榜地址:www.SuperCLUEai.com

# DeepSeek-R1稳定性测评体验摘要

测评要点1:各个第三方平台使用DeepSeek-R1的完整回复率表现差异较大。

字节火山引擎(100%)、天工AI(95%)以及秘塔AI搜索、无问芯穹和商汤大装置(各90%)表现出色,稳定性优异;而百度智能云、腾讯云TI平台和硅基流动的完整回复率均低于50%,当前显示出明显的不稳定性。这一结果凸显了稳定性在平台选择中的关键作用。

测评要点2:整体来看,所有平台的准确率都相对较高,这表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。除了完整回复率低于50%的第三方平台,其他九大平台的平均准确率达到了85.76%,最高准确率达到了100%,最低准确率也有78%。

#榜单概览

完整回复率 + 截断率 + 无回复率 = 100%

完整回复率:模型给出完整回复,不存在截断、无响应等问题,但不考虑答案正确与否;再除以总题目数得出比例。

截断率:模型在回复过程中出现断开的情况,未给出完整的答案;前者再除以总题目数得出比例。

无回复率:模型由于特殊原因,如无响应/请求出错,未给出答案;前者再除以总题目数得出比例。

准确率:对于模型给出完整回复的题目,模型的答案与正确答案一致的比例;正确答案,只看最终答案,不检查解题过程。

#测评方法

1. 对于每个第三方平台,使用20道小学奥数题进行统一测试。

2. 由于测评集为推理题,输出较长,因此对于所有支持调节最大输出max_tokens参数的第三方平台,我们均将该参数调为最大,其他参数保持平台默认。

#测评结果

(1)完整回复率

字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置的完整回复率均达到了90%以上,其中字节火山引擎的完整回复率达到了100%,而百度智能云、腾讯云 TI 平台和硅基流动的完整回复率不足50%。在截断率方面,腾讯云 TI 平台达到了95%,出现无响应/请求出错这种情况最多的是硅基流动,达到了75%。

(2)准确率

准确率统计的是在所有完整回复的题目中模型回答正确的题目占比。九个第三方平台使用Deepseek-R1的平均准确率达到了85.76%,表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。

#示例展示

题目:一只青蛙早上6点从深为10米的井底向上爬,它每向上爬2米,因为井壁打滑,就会下滑0.5米、下滑 0.5米的时间是向上爬2米所用时间的二分之一。6点 12 分时,青蛙爬至离井口 2.5米处,那么青蛙从井底爬到井口时所花的时间总共多少分钟?

标准答案:15.2 分钟(即15 分钟 12 秒)参考答案(来自模型:Gemini-2.0-Flash-Exp):

#原因分析

1. 不同平台对模型最大输出长度的限制可能是导致回复中断的关键因素之一。根据相关统计,部分第三方平台未提供对max_tokens参数的灵活设置(百度智能云、腾讯云TI平台等),这使得模型在生成较长回复时更容易发生截断现象,不可设置max_tokens参数的第三方平台平均截断率为39%,可设置该参数的第三方平台截断率为16.43%。特别是在本次实验中,由于采用了数学奥数测试集,题目复杂度较高且解题步骤较为繁琐,模型需要生成的内容长度显著增加,进一步加剧了因 token 限制而导致的输出截断问题。

2. 平台用户负载可能是影响其模型服务稳定性的潜在因素。

考虑到不同平台的用户量级存在差异,用户数量较高的平台可能因服务器负载过重而面临更高的不稳定性风险。平台服务稳定性不足,或将间接影响模型生成回复的完整性和推理速度。

# SuperCLUE结论和建议

1. 不同第三方平台在部署和运行DeepSeek-R1时表现出的稳定性存在显著差异。建议在选择平台时,综合评估其技术架构、资源调度能力以及用户负载情况,并结合自身需求(如回复率、推理耗时等指标)进行权衡。对于追求更高稳定性的用户,可以考虑用户量较少但资源分配更均衡的第三方平台,以降低因高并发导致的性能波动风险。

2. 数据显示,字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置等平台的完整回复率均达到90%及以上,表明这些平台在模型输出完整性和可靠性方面表现优异。对于需要确保高回复率的应用场景,可优先选择这些平台作为技术支持。 在“实现通用人工智能,让每个人更好地塑造和表达自我”这一企业使命的引领下,昆仑万维及其旗舰产品「天工AI」,始终致力于将最先进的AI研究成果转化成用户喜爱的产品。未来,「天工AI」将探索DeepSeek R1模型与天工AI自研算法的深度结合,强化多模态交互(如语音、图像、视频融合)能力,以DeepSeek-R1为技术支点,撬动从个人用户到企业客户的全链条价值创造。

天工AI地址:

www.tiangong.cn

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

打开APP阅读更多精彩内容