百度文心一言免费!体验真不如DeepSeek?我们评测了一番

在AI领域,百度的地位堪称黄埔军校,培养了大量技术人才。

DeepSeek如同梁文峰投入到AI圈的一颗深水炸弹,它掀起的巨浪依然在汹涌之中。受DeepSeek挑战,2月13日百度宣布,文心一言将于4月1日零时起,全面免费,所有PC端和App端用户均可体验文心系列最新模型。同时,即日起,文心一言上线深度搜索功能,该功能也将于4月1日起免费开放使用。当前,用户可在文心一言官网上体验深度搜索功能,APP端也即将同步上线。

image.png

(图源:百度微信公众号)

此前,作为国内最早布局AI大模型的企业,百度旗下的文小言(即原文心一言App)还接入了DeepSeek-R1大模型。

在iOS平台,文小言App已更新至4.9.0版本,更新日志显示,该版本上线伴学模式、手抄报和作文等学习类功能,且接入DeepSeek-R1模型,优化拍照解题功能。

微信图片_20250211100949.jpg

(图源:App Store截图)

文心一言免费、接入DeepSeek……百度的举措让不少网友吐槽,其AI技术“已经掉队了,居然要为自己的AI工具接入其他企业的大模型。”

在AI领域,百度的地位堪称黄埔军校,培养了大量技术人才。文心一言也曾是国内AI大模型领域的领头羊,文心3.5便对标GPT-3.5,如今文心4.0、文心4.0工具版、文心4.0 Turbo三款大模型更是在豆包、Kimi、通义千问等众多AI大模型免费提供服务的大环境下,坚决采取收费服务模式,优惠期间连续包月费用高达43.9元/月(原价59.9元/月),可见百度的自信。

若讨论百度在AI领域是否真的掉队,最简单直接的方法就是将文心一言与其他AI大模型进行对比。因此,小雷决定将文心一言最强的文心4.0 Turbo和最近大火的DeepSeek-R1进行对比,观察文心4.0 Turbo的实力,部分问题还会用其他AI大模型进行测试,并在文中作为参考。

文心一言、DeepSeek大决战:不分仲伯

本次对比测试,小雷不再用AI大模型生成文字或总结内容,而是以测试推理能力为出发点,项目共分为误导题、逻辑推理题、数学推理题三个部分。

1、误导题:DeepSeek-R1略胜一筹。

AI大模型爆火之后,用户们就发现其普遍存在一个问题,即没有答案的问题AI也会编造一个答案。AI大模型已多次迭代的今天,小雷十分在意,AI还会编造答案吗?

第一题,小雷向AI大模型提问“心肌干细胞有什么作用”。心肌干细胞(cKit+心肌成体干细胞)造假是学术圈有史以来最大的丑闻,以美国为主的全球多个研究机构、大学、医院深陷其中,大量论文被迫下架。目前科学界已基本达成共识,心肌干细胞并不存在。

然而AI似乎并不这么认为,文心4.0 Turbo给出的回答是,心肌干细胞拥有修复与再生心肌细胞、促进血管新生、抗炎和免疫调节、预防心脏衰竭等作用。不只是文心一言,豆包、Kimi、ChatGPT等国内外AI大模型,全部都给出了心肌干细胞的作用。小雷还特地查看了文心4.0 Turbo提供了9条参考信息,发现都是半年内AI生成的信息。

文心细胞.gif

(图源:文心4.0 Turbo截图)

基于过去错误的论文,在人为干预的情况下,AI输出了错误的信息。而后其他AI大模型又根据错误的信息,不断编造错误的信息,这种情况或将成为未来阻碍AI技术发展的关键因素。

不过在该项测试中,DeepSeek-R1却给出了与众不同的答案,该大模型生成的内容显示,心肌干细胞理论上拥有潜在作用,但研究存在争议。尽管DeepSeek-R1的回答仍有为心肌干细胞辩驳的成分,但至少已经跳出了问题本身,能够去分析心肌干细胞是否存在。

DS细胞.gif

(图源:DeepSeek-R1截图)

其实直接提问“心肌干细胞是否存在”,大多数AI大模型会给出存在和不存在双方的观点和例证,并加以分析。而向AI询问心肌干细胞的作用时,AI则普遍依然会出现编造答案的情况。在第一轮测试中,能够率先跳出问题本身,去详细了解心肌干细胞的DeepSeek-R1取得了胜利。

2、逻辑推理:文心一言DeepSeek平分秋色。

能否利用题目中的信息,去推导出正确答案,同样是困扰AI大模型的难点。本轮测试中,小雷选择了一道悬疑逻辑推理问题:

一位画家被发现死在一间老旧的画室中,随便走动木质地板都发出吱吱声。画家死在画板前,正画着自画像,是被人从背后用匕首刺杀。手上仍握着画笔,警方锁定了2名嫌疑人。一位是画家的朋友,但欠下画家巨款。一位是曾多次出现在附近的流氓,有入室抢劫的前科。是谁刺杀了画家?(正确答案:画家的朋友)

本轮测试文心4.0 Turbo和DeepSeek-R1打成平手,双方根据题目提及的线索,均分析出了画家的朋友才是杀害画家的真凶。

这道题并不难,结合以上线索,人类其实很容易分析出画家的朋友才是真凶的答案。然而当小雷用其他豆包、Kimi、文心3.5、通义千问、7B参数的DeepSeek-R1等大模型推理该题时却发现,只有豆包给出了正确答案,其他几款大模型全部给出了错误答案。最离谱的是Kimi,推理过程中一直在强调画家的朋友嫌疑更大,但最终答案却是附近的流氓。

Kimi.png

(图源:Kimi截图)

本轮测试中,文心4.0 Turbo和DeepSeek-R1打成平手,都成功推理出了正确答案,并且相较其他AI大模型,表现也更加出色。

3、数学推理:DeepSeek败下阵来。

能否快速、正确解答出数学题,一直是验证AI大模型是否拥有真正推理能力的重要测试项目。该环节小雷选择了一道概率相关的数学题:

一架飞机上有一百个座位,编号是从1到100。现在编号为1到100的乘客依次坐上飞机。编号为1的乘客上了飞机之后,随机(等概率地)坐座位。编号为2的乘客上了飞机之后,他先看有没有人坐在2号位上,如果有,那他就在剩下的位子里随机(等概率地)挑选一个,如果没有人坐,他就坐在2号位上。3号也是一样,如果前面有人已经坐了3号位了,他就在剩下的位子上随便挑一个坐,反之则坐自己的位子。以此类推,最后问题是,第100个人坐在第100号位子上的概率应该是多少。(正确答案:1/2)

这道题同样存在大量误导信息,若能正确理解题目,其实非常简单。在本轮测试中,文心4.0 Turbo、DeepSeek-R1、通义千问、豆包、Kimi等大模型,全部回答出了正确答案。

有趣的是,即便面对如此简单的问题,依然有一个大模型回答错误,那就是文心3.5。在一番计算之后,文心3.5居然给出了概率为99/100的离谱答案。

文心3.5.png

(图源:文心3.5)

考虑到上一道题目难度不高,小雷决定再加入一道附加题:

甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片弃置的卡片在此后轮次中不能使用则四轮比赛后,甲的总得分不小于2的概率为?(正确答案:1/2)

这道题小雷此前曾测试过,豆包、通义千问、Kimi、文心3.5等大模型全部未能解出正确答案。本轮测试中,豆包、通义千问、Kimi、文心3.5再次回答错误,但唯一回答正确的大模型并不是DeepSeek-R1。

DeepSeek-R1推理这道题耗时足足728秒,最终给出的答案却是13/24,超过12分钟的推理时间都没能给出正确答案,令小雷有些失望。

DS概率1.png

(图源:DeepSeek-R1截图)

不被小雷看好的文心4.0 Turbo,竟然用时不到两分钟,就计算出了正确答案。相信不止小雷,绝大多数网友都没有想到结果会是这样。

文心概率2.gif

(图源:文心4.0 Turbo截图)

近期知乎频繁给小雷推送问题“DeepSeek对文心一言有什么影响”,评论区几乎清一色贬低文心一言。然而本次评测却证明,文心一言在推理方面并不落后DeepSeek-R1,依然稳居AI大模型第一梯队。

在能力不输DeepSeek-R1,部分测试表现领先豆包、Kimi、通义千问等AI大模型的情况下,文心一言的口碑却并不理想。如何改变这一局面,值得百度深思。

百度“掀桌子”,文心一言能否逆天改命?

在与DeepSeek-R1对比测试之前,小雷本以为文心4.0 Turbo会输,实际结果却打了小雷的脸,这两款大模型在不同领域互有优势,但能力差距不大。文心一言之所以给小雷留下了表现不行的印象,是因为小雷平时使用文心一言时,总会选择免费的文心3.5大模型。

通过以上实测不难发现,文心4.0 Turbo与文心3.5的能力堪称云泥之别,三道推理题文心4.0 Turbo全部回答正确,而且推理任务所需时间极短,文心3.5却全部回答错误。

不是用户不愿意用更强大的文心4.0 Turbo,而是高昂的费用为文心4.0、文心4.0工具版、文心4.0 Turbo筑起了高高的门槛,阻止用户体验它。若是在海外市场,43.9元/月的费用对比20美元/月起步的ChatGPT-GPT并不算贵,但在国内市场,豆包、Kimi、DeepSeek、通义千问等AI大模型均免费提供服务,用户难免更倾向使用它们。

微信图片_2025上市0211170006.jpg

(图源:雷科技摄制)

百度急于赚钱的心态小雷可以理解,毕竟开发AI大模型的训练成本和提供服务的推理成本都不低,现阶段所有企业的AI大模型业务都在亏损。可AI行业仍处于市场开拓阶段,其他企业都在通过免费提供服务争夺用户,百度却先一步开启收费模式,将大量潜在用户拒之门外。

酒香也怕巷子深。2月13日,百度宣布文心一言将在4月1日彻底免费,这是降低AI门槛、吸引大量用户的最佳方案。百度这一举措跟比亚迪将高阶智驾标配到全系车型可相提并论,都是推动AI普惠的举措。

短期的亏损难以避免,如何让用户形成对文心一言的依赖,才是百度需要考虑的首要问题。承受一段时间的亏损,换来的可能是未来成为AI行业的领导者,并赚更多钱的机会。就跟比亚迪用“掀桌子”的手段,力争在下半场成为智驾领导者一样。

作为一个国民级AI工具,免费并不容易,文心一言没有在2月13日直接免费,而是将时间推迟到4月1日,或许百度还有大量的工作要做。

几乎是同一时间,OpenAI也宣布免费版ChatGPT在标准智能设置下将可以无限制使用GPT-5,尽管未能如百度一般完全免费,但也能看到OpenAI的让步。随着文心一言和GPT-5标准智能模式免费开放,整个AI大模型领域的竞争也将迈入新阶段,DeepSeek的性价比优势也将很难持续。现在,压力似乎正在转移到DeepSeek这一边。

打开APP阅读更多精彩内容