大模型2025三大争议:技术、价格、AGI

在大模型“撞墙论”不绝于耳的当下,行业比任何时候都更迫切地渴求探索和创新。

在大模型“撞墙论”不绝于耳的当下,行业比任何时候都更为迫切地渴求探索、渴求创新。

步入2025年这短短一个月之内,全球大模型玩家仿佛集体“冲业绩”,OpenAI、谷歌、DeepSeek等玩家密集发布了一系列新品。

而纵观整个大模型行业,几乎是有史以来的第一次,大模型行业内部出现了大规模分歧与非共识:

1.应用 vs技术——基础模型的更新是否已经基本停滞?行业创新的重点转移到应用?

2.价格战 vs价值战——“价格战”打不打?怎么打?创业公司打得过吗?

3.单模态 vs多模态——对于AGI来说,多模态究竟有多重要?

在这十字路口前,每家大模型企业,都自愿或是被迫地,选择了自己的站位。

例如,OpenAI的GPT-o1试图用强化学习为Scaling Law“续命”,谷歌Titans开始探索全新的模型记忆力架构;但同时也有更多玩家开始将注意力转至应用优化、功能更新、用户留存上。

作为国内“大模型六小龙”之一,MiniMax此前一直以产品力强而闻名业内,在这个时间点也通过开源和一系列更新表达了自己的态度。

2025年1月以来,MiniMax在十天内连发四个AI模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01,以及视频模型S2V-01、语音模型T2A-01。而两个MiniMax-01系列模型,更是公司有史以来首度开源。

创始人在近期的媒体访谈中也直接表示,“如果重新选,第一天就应该开源”。一家商业公司从开源走向闭源是常见的,从大家调侃“OpenAI变CloseAI”可见一斑,但从闭源走向开源却不多。

从MiniMax这一系列更新可以看出来,这家公司正试图通过开源、创新、技术驱动的路径,扭转市场对其的“只有产品强”的印象。创始人表示,“技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化”。

同时,面对当前大模型行业的三大“非共识”,MiniMax也试图通过这一系列模型更新,给出自己的答案。

1 卷应用 vs 卷技术

行业再次来到“Transformer时刻”

从去年以来,大模型行业内部一个显著的趋势是——底层技术突破开始变慢。

OpenAI的GPT-5屡屡跳票,时至今日仍不见踪影。AI三大要素算力、算法、数据均出现了不同程度的发展停滞,2024年的模型能力似乎停止增长。

与之相对应的,是大模型应用“投流大战”的爆发。

根据AppGrowing数据,自从月之暗面(Kimi)打响国内大模型“投流大战”以来,国内前十款大模型产品合计投放广告超过625万条,按市场价折算,金额达到了15亿元人民币。

以至于坊间戏称:“大模型行业里唯一赚到钱的是B站、抖音、小红书”;“共享单车补贴战好歹普惠用户,现在赚钱的只有广告平台。”

落到应用层面,不少企业选择了专攻APP产品、定制合作项目、为政企定制小模型等方案;而在模型技术层面,无论是国内还是海外,其大部分都统一选择了较为安全的“对标GPT”方案,在技术路径上全面跟随OpenAI——而当OpenAI疑似“撞墙”后,整个行业看上去都放慢了脚步。

1月15日,MiniMax发布并开源了最新一代MiniMax-01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

与之同步公开的一份68页技术论文《MiniMax-01:Scaling Foundation Models with Lightning Attention》,更是几乎在整个AI技术圈都引起讨论。

(硅谷科技媒体VentureBeat及AI科技学者、投资人与创作者评价MiniMax-01系列模型的架构创新及长文本能力)

从参数上来看,MiniMax-01总参数规模达到4560亿,其综合性能在多个主流评测集上与GPT-4o、Claude-3.5-Sonnet等SOTA(State-of-the-Art,业内顶尖)模型持平,支持400万token的输入,可输入长度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。

在测评集LongBench V2的最新结果中,MiniMax-Text-01综合评分仅次于OpenAI的o1-preview和人类,位列第三。

(Long Bench V2排行榜,LongBench V2是面向现实情景进行长上下文多任务深入理解和推理的测试集)

如果只是模型性能很强,MiniMax-01并不会在AI研究人员中引发如此广泛的关注。

引人注目的点在于,MiniMax第一次在一个4560亿参数的超大规模商用模型上,引入了有别于传统Transformer架构的线性注意力(Linear Attention)机制,以极低的算力成本,试图为困扰着整个大模型行业的难题提供一个新的解题思路。

MiniMax-01针对大模型最底层、最核心的Transformer架构进行了重构,在传统方案(下图上半部分)的基础上,引入了Linear Attention线性注意力,相当于从“分子”层面对物质进行改变。

这也是为什么,这次MiniMax-01的开源会在AI研究圈引起如此大的关注。

(MiniM ax-01核心 架构示意图)

线性注意力技术并不是MiniMax第一个提出的,正如大语言模型技术并不是OpenAI第一个提出的,但它们却是第一个大胆、坚定地对其进行大规模应用,并围绕其进行了从算法到框架的全面创新,最终取得颠覆式成功的玩家。

正是这种针对最底层技术的创新,使得MiniMax-01能够以GPT-4o十分之一的算力成本,达到比肩业内SOTA的性能,以及国际第一的400万token超长上下文。

在技术论文的最后,MiniMax的研究人员表示,MiniMax-01仍有八分之一的部分沿用了传统Transformer技术思路。当前,他们正在研究一套更高效的全新架构,最终完全去掉传统方案,从而实现无限制上下文窗口。

这也就意味着,如果MiniMax成功了,大模型将从此不再受限于输入长度,人类离AGI(通用人工智能)前进了一大步。

正如当年BERT横空出世,大模型产业迎来“Transformer时刻”一样;从某种程度上来说,我们也许正在见证“第二个Transformer时刻”。

2 价格战 vs 价值战

算力成本居高不下,“人人都在为英伟达打工”

如果要回顾2024年大模型行业发展,有一个关键词绝对不容错过——“价格战”。

这一领域的战场主要集中在B端,更精确来说,是为to B用户提供大模型API服务并按量计价的大模型供应商们。

2024年5月初,国内初创企业DeepSeek(深度求索)在发布最新模型DeepSeek-V2的同时,突然大幅调低了API价格,其每百万token输入价格低至1元,接近于当时GPT-4 Turbo价格的百分之一。此后,字节跳动、百度、阿里、腾讯、智谱AI、科大讯飞等行业玩家全面跟进,一场轰轰烈烈的大模型价格战就此打响。

与之相对应的,却是居高不下的算力价格。

自ChatGPT于2022年底火爆以来,本已接近供不应求的英伟达GPU芯片,在全球AI大模型爆火的背景下,价格也进一步飙升,带动着英伟达公司市值一路突破3万亿美元,超越苹果,成为仅次于微软的全球第二大市值企业。

GPU不仅价格高昂,并且有价无市,2023年甚至出现过海外AI初创企业用英伟达GPU抵押融资23亿美元的新闻。由于算力昂贵而稀缺,即便在科技巨头内部,也有不少部门为集团GPU算力分配争得头破血流——不少大模型从业人员戏称“人人都在为英伟达打工”。

一边是高昂的算力成本,另一边却是惨烈的价格大战,夹在其中的大模型厂商两相为难。

不过并非没有解法。

答案似乎有些老生常谈——技术带来的问题,终究还是要回到技术找解法。

以DeepSeek为例:与MiniMax类似,DeepSeek也是坚定不移的“卷技术”派。2024年,在对技术不断优化后,其推出的V3模型参数量达到了671B,训练成本仅为557.6万美元,对比之下,2020年的GPT-3训练成本已经接近1200万美元,GPT-4的训练成本更是超过1亿美元。

事实上,模型训练成本的降低不仅与模型算法有关,它涵盖了算力和应用的中间层的多个步骤,涉及算法、架构、硬件、软件、工具链的优化与调度,一般称为AI Infra(AI基础设施)。在算力成本居高不下的背景下,AI Infra的首要目标是优化算力资源,在保证性能的同时尽可能降低模型部署成本。

而MiniMax-01所引入的Linear Attention技术,本质上是通过算法降低矩阵输入复杂度,从而降低算力成本。与此同时,MiniMax还引入了数据打包(Data-packing)、线性注意力序列并行性(LASP+)、多级填充(Multi-level Padding)等一系列技术,从数据、算法、到GPU通信间进行了全面优化,使得其在英伟达H20 GPU上机器浮点利用率(MFU)高达75%,极大降低了模型的训练与推理成本,其输入价格仅为1元/百万token,是GPT-4o的十分之一。

在被媒体问到“MiniMax过去一年比较满意的技术成果是什么?”时,MiniMax创始人的回答是:AI Infra与算力优化,以及多模态。

3 单模态 vs 多模态:我们离AGI还有多远?

多模态可能是业内分歧最小,但竞争最为激烈的领域。

模态(Modal)是计算机用语,可以理解为计算机和人之间的感知交流模式的分类——如文字、图像、声音、视频等。

目前除了极少数坚持单模态的玩家外,市场上的大部分AI企业都会瞄准多模态赛道,最基础的是文字、图像两个赛道,涉猎更多的则会涵盖音频、视频、3D建模等等。

以语音为例,1月20日,MiniMax发布T2A-01系列语音大模型,支持17种语言,目前已经上线其海螺语音产品,面向所有用户开放。

合成效果可以看看下面的示意视频。

从视频的16秒开始,在不看画面的情况下,你大概也能准确判断出说话者的性别、年龄与情绪:白发苍苍的老人、坚毅认真的女性、愤怒的青少年、稚嫩天真的孩童,语音语调里有着各自的悲伤、兴奋、喜悦、抑扬顿挫。

文本转语音其实是个老技术了,此前的发声效果一直很生硬,无法像人类一样控制语调的情绪起伏、抑扬顿挫。谷歌翻译还曾因为发音太过机械,一度成了互联网热梗。

MiniMax这次上线的语音大模型基本已经到了商用水准,AI有声书、广播剧、动画、视频配音这些场景目前看来都能够覆盖。

而比语音大模型更受关注的,则要数视频大模型。

2024年2月,Sora横空出世,带动全球AI视频大模型开始“狂飙”。不过,在此期间行业其他玩家的视频生成大模型不断涌现,Sora在发布后却始终处于“期货”状态,直到12月才正式推出。

目前AI视频大模型领域有两大主流技术路径:文生视频、图生视频。

二者各有优劣,文生视频(Text-to-Video)主流采用Diffusion技术,拥有极好的“发散思维”能力,用户可以通过文本描述生成任何想象中的视频内容;但另一方面模型训练和推理的计算复杂度高,而且视频主体稳定性极差——尤其是人物的面部。

图生视频(Image-to-Video)与其相反,模型将根据用户输入的图片生成视频内容,一个典型的应用场景就是“让老照片动起来”,其相比文生视频主体稳定性更好,计算资源需求更低,但视频自由度严重受限。

不过,MiniMax在1月10日发布的最新视频模型S2V-01却打破了两者间的壁垒,其自研基于单张图片的主体参考功能,用户在上传一张图片创建参考角色后,模型会将图片中的主体视觉信息抽取出来,再根据用户的文本Prompt进行视频生成,在保证视频主体稳定的同时,将创意表达得更灵活。

(海螺AI用户创作案例。提示词:一名男性警官打开车门,从警车里出来。镜头跟随这名男子,保持近景,聚焦于男子的面部。这名男子穿着警服。男子的表情从平静变为有攻击性。城市被夜晚的场景包围,周围有几辆警灯闪烁的警车)

(海螺AI用户创作案例。提示词:末日废土的九龙城寨,一个退伍老兵,牵着一条狗,警惕性的在街边移动着,躲避天空中不时飞过的巡逻无人机,不远处还传来类螳螂的机器人(隐约看见)在街边与反抗军对峙的开枪声)

尤其如下图所示,是在用人物特写图像生成视频时,S2V-01能够保证极高程度的人物五官、面部细节稳定、自然。

尤为值得一提的是,下图人物的眉心、脸颊、唇角各有一颗痣,海螺AI所生成的视频不仅能够清晰还原参考图中痣的细节,还能在不同镜头中保持其位置的一致性——在目前所有AI视频生成大模型中,这可能是第一个能做到的。

(海外平台上,创作者们对S2V-01表现出极高热情)

值得关注的是,MiniMax-S2V-01模型对于视觉和文字信息的处理方式,非常接近人类。

事实上,多任务、多语境、多模态是AI界“冠上明珠”——通用人工智能(AGI)——的几大主要研究方向。

在AI界的目标中,AGI是一种极其复杂、灵活的人工智能,不仅能完成图像分类或跨语种文本翻译等任务,还能模拟人类分析、策划、创造等一切认知能力。

不过,多模态并非是当前唯一的技术路径,也有技术流派将语言大模型认定为AGI的通路。不过就目前而言,在行业尚未达成明确AGI共识的当下,Agent(智能体)是个目标更明确的关键节点。

随着大模型底层技术的发展,各行各业对Agent能力要求也在不断提高,任务变得越来越复杂、数据量越来越庞大,相应而言,大模型本身不仅需要更长的上下文处理能力,同时也需要越来越“像人”,不断提升其对图像、视频、声音等多模态信息的处理能力。

2025年,可能是AI Agent爆发的一年。

结语

截止至2024年12月,根据AI产品榜数据,MiniMax旗下的AI内容社区Talkie以2977万的月活跃用户数,成为全球第一大AI内容社区——这是中国AI厂商第一次在海外超过同类应用,登顶全球第一。

按理来说,作为这场比赛中的赢家,MiniMax应该比任何人都要拥护“卷应用”。

但很有意思的是,MiniMax创始人在最近接受媒体采访时,却抛出了“中国人工智能产业过去一两年走入了巨大的误区:认为用户越多,模型能力提升越快。这也导致企业为了有更多用户,就花大量的钱来买流量”的观点,引发了业内激烈讨论。

坦白说,他可能是对的。

一直以来,MiniMax都是大模型行业里一个非常独特的存在。

一个事实是,全球许多大模型公司基本都在2022年底ChatGPT火了之后才成立,但MiniMax则早在2021年底就成立了。这也导致当年ChatGPT突然爆火之后,所有人都懵了,回过头来四处打听这个MiniMax到底是何方神圣。

在技术路径上,MiniMax也始终有些“特立独行”。

2023年,彼时国内市场还是Dense(稠密)模型的天下,MiniMax却将80%以上的算力和资源全部投入MoE(混合专家)模型的开发中,于2024年初推出了国内第一个MoE大模型。

事后,MiniMax曾经透露,当时公司没有准备任何MoE以外的备选计划。

一年后来看,MiniMax赌对了。如今,MoE路径已经成为各家共识,尤其在模型规模、计算规模越来越大的当下,混合专家技术已成为模型大规模部署必不可少的核心技术。

在行业普遍选择跟随GPT-o1路径的当下,MiniMax却大胆地瞄准了困扰全行业的“Transformer撞墙”问题,通过底层架构的创新,用有限的算力成本达到真正可以比肩国际领军模型的效果。

用户从来都是用脚投票的。

无论是文本、图像、语音还是视频,每当模型能力、处理速度有重大提升时,这一提升都会真切地反映在产品与用户体验中。MiniMax曾经透露,每当模型能力变强后,产品内用户的留存表现和使用深度都有着显著提升。

从创业第一天起,MiniMax就是一个集合了大量“非共识”的存在,它在业务选择、技术路线、AGI实现路径上都有着独立而清晰的判断,不焦虑,也不跟风,敢于在非共识路上突破上限、做难而正确的事。

当前的大模型产业,已经进入了比赛的下半场,所有“低处的果子”都已被摘光,仅靠跟风与模仿,几乎毫无胜算。

靠技术创新打开的市场,终究还是要靠技术创新站稳脚跟。

打开APP阅读更多精彩内容