DeepSeek-R1联网搜索测评公布,腾讯元宝位列第一

3月11日,中文大模型测评基准SuperCLUE今日发布最新报告。针对10家接入DeepSeek-R1的第三方平台进行了联网搜索的测评,测评内容包括基础检索能力如文化生活、经济生活、实时新闻等,以及分析推理能力如推理计算、分析排序、数据检索与分析等。

报告显示,各平台整体表现差异较大,腾讯元宝综合实力领先,在10家接入DeepSeek-R1的平台中联网搜索能力最强,在总榜和分析推理能力榜单上排名第一。

总榜单上,阶跃AI、支付宝百宝箱位列第二、第三,百度AI搜索和天工AI(高级模式)并列第四,飞书知识问答和秘塔AI搜索(深入模式)并列第五。

微信图片_20250311183134.png

报告称,在基础检索能力维度上,腾讯元宝、阶跃AI和百度AI搜索达到了100%的准确率,表现优异;但在分析推理能力维度上,仅有腾讯元宝、天工AI、支付宝百宝箱和阶跃AI超过了40分。

报告还指出,各平台平均耗时差异较大,不同任务上的平均耗时差异也同样明显。总平均耗时从最少的字节火山引擎(17.12秒/题)到最多的MiniMax(73.51秒/题),差距非常显著。整体来看,耗时分布范围较广,不同平台之间的搜索效率差异较大。另外,所有平台在分析推理能力上平均耗时都明显高于基础检索能力。

打开APP阅读更多精彩内容