推理算力圈,跑来了一个“滴滴”

WechatIMG72_meitu_1

文/孙媛

今年,大模型集体降价,让模型使用门槛向“免费”逐渐靠拢,也让AI应用大爆发的时间窗口越来越近。

随着生成式AI 模型参数和 Token 数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi 等聊天机器人的用户数逐步上升, Microsoft Copilot、Adobe Firefly、WPS AI 等办公助手持续落地,用户侧的流量不断上升,也让推理算力需求有望高速增长。

一言以蔽之,那就是“推理”将替代“训练”,成为舞台上的主角。

然而,目前AI推理面临的主要问题是成本高昂,尤其是随着模型规模增大,计算需求和成本也随之增加。此外,推理效率普遍较低,加上复杂的业务场景和应用链路,进一步推高了推理成本。

矛盾之下,问题随之浮现:怎么样才能把算力运到每个用户手上能够用起来,谁能成为解决算力网的“最后一公里”的有效途径?

9月4日,分布式云服务商PPIO派欧云以“分布式算力网络”的提出,给出了“算力版滴滴”的解法。

从PPTV到 PPIO,华科大校友携手以“分布式云”二次创业

谈及PPIO派欧云,绕不开其联合创始人兼CEO姚欣。

2002年,当时还在念本科的姚欣,被华中科技大学金海教授“当有一天网格(当时的叫法)足够分布的时候,我们每个人用算力就像用电用自来水一样,随时随地接上插头、打开水龙头就可以使用到。算力将无时不在、无处不在。”的描绘所鼓舞。

随后1年,他就通过整合汇聚每个用户看视频时闲置的上行带宽,加速了视频时代的到来。

姚欣

而这个项目,就是2012年位列中国视频网站用户规模第2名的PPTV,连接了全国4.5亿台的手机、PC、机顶盒等设备,建立起的一个分布式的存储和传输网络,是软银曾四轮押注的风投宠儿。

2013年10月,苏宁联合弘毅资本以4.2亿美元入股PPTV,其中苏宁以2.5亿美元收购PPTV 44%的股份,成为第一大股东,姚欣也随即创而优则投,以蓝驰创投合伙人的身份跑入一级市场。

但他心中二次创业的火焰却始终燃烧着,直到2018年,一个报告让他再次捕捉到了机会。

他看到,全国所有的数据中心的机房平均利用率只有53%,意味着近47%的空间没有被充分地使用。于是,姚欣便找到也是华科大校友的前PPTV首席架构师兼联创王闻宇提出了一个想法。

“我们能不能够从当年汇聚用户的资源到汇聚企业的资源,把企业侧闲置的数据中心,闲置的机房资源整合起来,形成一个分布式的云服务?”

无独有偶的事,就和过去两人做PPTV时所积累的分布式计算、分布式系统的能力相关,姚欣敏锐地察觉到可能又将迎来一次新时代的起点,可以去做新时代的数字底座。

于是,二人再次携手,还是王闻宇带队技术,PPIO派欧云应运而生。

公司成立同月,19位明星CEO闻声而动,包括百川智能创始人王小川、迅雷创始人程浩、元气森林创始人唐彬森、前微软Azure中国总裁申元庆等在内的科技行业人士,就火速投出了数千万元天使资金。

彼时,与云厂商解决如何面对上百万台标准的、规范的、高性能的服务器互联互通,形成大的云计算能力不同,PPIO的挑战在于,整合企业侧的算力闲置空间,要在非标、异构和碎片的基础设施之上,建立一套可靠的商业服务。

为此,在二次创业的前三年,团队一直在云原生上攻克并实现技术上的“金刚钻”,包括自动化的运维、利用网络能力将上千个机房互联互通、以及基于云原生的标准来进行边缘云原生的K8S的研发和架构的精简,由此来实现更加实时的弹性调度。

2019年公司推出了“派欧边缘云产品”,随后形成了边缘CDN、边缘计算和边缘渲染的产品矩阵,并在2020年陆续签下了爱奇艺、腾讯云、百度云等标杆客户。

截至目前,其资源节点覆盖了国内外1200多个城市及地区,现有3500+全球分布式算力节点,支撑每一天的用户访问量达2亿到3亿次,客户已包括众多全国前20名的互联网企业。

据姚欣透露,过去5年,边缘云业务经历了迅猛发展,已经实现盈利。

以“三层”推理云服务,做“算力版滴滴”

行至2024年,在大模型时代带来生成式AI后,PPIO派欧云也有了新故事。

算力大爆发下,AI面临着成本上的使用挑战已成不争的事实。

姚欣做了一组假设,全球70亿人口只有10亿用户每天使用人工智能(ChatGPT),每天消耗7000个Token,假设7000个Token费用乘以一年,仅是服务10亿用户,就需要750亿美金用于推理对话,这还只是推理对话使用,相当于40座哈利法塔(世界第一楼)的建造成本,一年时间就烧完了。

这意味着,当模型训练出来让上亿用户使用时,要使用的推理消耗会更大幅度地消耗,而这种消耗高速增长,就必须实现算力成本数量级的下降。

同时,姚欣也看到中国算力有着算力需求区域跟能源最有优势的区域不一致、独立重复建设以及硬件梯次利用不足的三大难题,亟待解决。

而这些问题,就推动着PPIO在过去两年开始,从边缘云扩展到算力云,与大客户携手做了一系列的尝试,以期以分布式算力网络把碎片化、非标、异构的资源在大模型时代被有效充分地使用。

譬如,联合多家运营商来去进行资源的内部充分调用和使用,PPIO通过把技术部署在运营商系统内,来让内部的GPU进行资源化和池化来充分使用,同时将不同年代的卡型混合调用,解决一系列的充分利用问题,来实现算力的梯次利用。

去年,百川智能还成为了PPIO算力云产品的首家大模型服务客户,由PPIO助力其大规模AI推理。

诸此种种努力,为PPIO构建了AI时代技术的积累和能力的提升,也随之形成了姚欣所说的“利用分布式云的优势,三年实现千倍降本,以算力普惠推动 AI 普惠”的算力云产品矩阵。

据PPIO派欧云联合创始人兼CTO王闻宇表示,算力云产品为开发者提供推理云服务,一共分三个层面:一是“毛坯层”GPU Instance(GPU容器实例),二是“简装层”Serverless云原生体系,三是“精装层”,为初创开发者提供的大模型AI服务,直接基于API的一站式使用。

而这三层有不同的开发逻辑,分别服务大中小型企业。

在GPU Instance上,内置无缝集成尖端技术推理加速引擎(PPInfer),通过一系列自研推理加速算法,使大语言模型(LLM)推理性能提升10倍。适合可投入巨大工作量的大公司,而开发者只用为此负担算力所消耗的成本。

不过,值得注意的是,“毛坯”意味着什么都需要自己搭建,使用者要面临大量的IP一台台部署应用、为闲置算力进行付费,以及搭建一堆服务部署各种环境等痛点,所以在这层之上,算力云发布了“简装层”Serverless产品。

在Auto Scaling、沙盒化的虚拟环境这两大核心技术支撑下,专为AI推理场景设计的Serverless产品具备弹性伸缩、免运维的特性,帮助开发者在保持开发情况下依然可以享受快速云原生的服务,从而帮助企业实现降本增效。

再往上,便是场景覆盖较多、操作最简单的算力云产品矩阵中最上层,Model-API。

这一层中,支持AIGC应用开发所需的全模态 API,由智谱AI、百川智能、通义千问等大模型合作提供,开发者无需精通机器学习、只要调拨API 5到10分钟即可快速部署和调用大模型功能,主要服务长尾的中小型开发者,应对电商做图、游戏设计、自动化营销客服、数字人等不同场景应用。

王闻宇透露,基于PPInfer的推理引擎+基于Serverless云原生的技术能力,再结合PPIO算力云自身充分使用梯度显卡和发电的能力,综合下来,Model API服务不仅显著提升了AI应用的开发效率,还通过按需付费模式给开发者做到“极致性价比”。

PPIO派欧云联创兼CTO 王闻宇

据悉,价格方面,GLM-4的 Model API 费用达到每1亿(100M)Token价格达0.5元,从而以低价格来显著提升AI应用的开发效率,并有效降低企业开发和运营成本。

于推理算力而言,姚欣认为,PPIO做的是整合者和搬运者,是算力“最后一公里”的“滴滴”,也是“货拉拉”。

“算力云是基于供需不匹配,算力、甚至IT资源的闲置这一长期且持续存在的现象出发,整合企业侧闲置的、碎片化的能力和算力,然后去承载各种各样不同的服务和应用,可以理解为既拉人、也拉货。”

姚欣坦言,目前算力云产品矩阵刚面世,其商业化才刚刚开始,根据TIRIAS research的研究,从未来算力构成来看,95%是推理算力,5%是训练算力,但这95%也不会出现一家独大局面。

“未来两、三年内,我们有望看到大模型逐渐走向集中化和标准化,在这其中,异构推理算力硬件环境将会呈现‘百花齐放’状态,针对不同的场景,不同的领域,有不同的解决方案,不同的卡去解决它。对于未来三年AI推理成本下降100倍、1000倍的过程预测,我们是非常乐观的。”

左为PPIO派欧云创始人兼CEO 姚欣,右为金海教授

值得注意的是,此次会上,PPIO派欧云宣布聘请华中科技大学教授、长江学者特聘教授、中国计算机学会副理事长金海教授担任公司技术委员会主席,而金海教授早在2002年就开始负责中国教育网的网格计算建设,也是2007年第一批从事虚拟化和云计算研究的科研专家,是中国分布式计算领域的领军人物。

他曾是姚欣创业的引路人,而这一次,金海教授也将为公司技术团队提供深入全面的指导,将分布式云技术边界进一步拓展,推动更多应用的落地,让更多创业者轻装上阵。

天眼查显示,PPIO派欧云截至今日已完成3轮融资,融资金额超4亿元,资方名单包括蓝驰创投、张江科投、创世伙伴等知名VC。

而随着CEO姚欣、CTO王闻宇、首席科学家王晓飞,以及刚特聘的技术委员会主席金海教授吹响华科大逐鹿推理算力的号角,赛道势必将燃起新的硝烟。

打开APP阅读更多精彩内容