智算云,中国电信天翼云怎么做?

图片系AI生成

图片系AI生成

以大模型为代表的AI技术,正在重构云计算,不仅局限在算力层。

大模型需要巨大的计算资源来进行训练和推理,算力需求指数级增长增加,但云计算是一个工程和生态体系,做智算云不能只做算力,与之相关联的软硬件技术栈都需要做一次升级,商业和产业逻辑也处于动态变化中。

中国工程院院士郑纬民针对国内云计算与算力产业提出四点建议,一是面向国产算力,建立完善的软硬协同生态;二是面向算力互联,形成算力联网统一调度;三是面向算力互通,构建统一的编程框架和编译软件;四是加强云计算领域软硬件的自主创新能力。

对于天翼云来说,其“国云”定位也有多重要求。中国电信董事长柯瑞文表示,国云的发展已经走出了一条符合自身特点的道路。从中国电信的实践来看,既要把握趋势也要结合实际,趋势指云计算和人工智能的发展方向,结合实际则是指中国电信的主责主业、资源禀赋、队伍结构和使命责任。

在数字中国峰会期间,中国电信天翼云宣布,2024年年底智算规模将达到21EFLOPS,上海的万卡集群已经建成投产,北京的万卡集群也将在6月份上线。同时天翼云发布了智算云体系,涵盖算力、平台、数据、模型、应用等方面,并且强调自主创新的重要性。

值得一提的是,本次大会上国资监管云中央节点暨国资央企智算云调度管理平台正式上线。以中国电信京津冀智能算力中心为基础,辐射全国,支持国资监管各类应用系统全面上云和智能化升级,由天翼云作为主要支持厂商。

算力是首要问题,但不是全部

“每一家AI独角兽的背后都能看到头部云厂商的身影。Ai是由算力、平台、数据、模型、安全、应用,还有终端等要素组成的复杂产业链,所谓云智一体,云绝对不仅仅是底座,而是发挥成长赋能加速的全链条带动作用。“中国电信集团有限公司总经理助理,天翼云科技有限公司董事长、总经理胡志强表示。

拆解来看,承载是指云可以提供丰富的算力资源;赋能是指为AI从业人员提供工具、数据、模型、环境等平台化的能力;加速是助力AI的商业化落地。目前来看,头部云服务商更有能力拉通产业链各个环节,推动大模型产业链的商业闭环。

当前智算云体系仍有不少问题待解决,首先是算力的高质量供给,也是产业当前面临的最大问题。一方面,业内是已经出现了多个万亿级参数的基础模型,10万亿参数模型也即将出现,面对指数级的算力需求,需要单集群超大规模的算力供给。

另一方面,大模型训推一体,要求高端和低端算力在同一个资源池部署,对异构算力管理和资源调度能力提出了很高的要求。

其次是基于云平台能力实现跨层协同和优化。Ai大模型技术栈非常复杂,万亿参数以上的模型训练必须要从云侧的基础设施、资源调度以及AI侧的训练框架、推理框架、模型算法、向量数据库等多个维度进行跨层级协同与优化,并形成平台化的服务能力。

第三是解决兼容性问题,推进国产算力规模应用。目前国内外AI芯片设计的差异性,以及软件栈的不同,跨生态迁移难度较大,必须要加速开发端到端的工具链,并通过算子优化、并行加速等技术来解决算效问题,实现国产算力从可用到好用。

安全体系和治理体系也需要与时俱进,在训练推理和传输过程中,海量数据的安全和隐私保护问题面临更为严峻的挑战,同时大模型的复杂结构和黑箱机制也带来了内容安全领域的新挑战。

此外,AI应用创新的重心正在向端侧转移,但无论是PC、手机还是XR设备,在算力、功耗、交互等各个方面,都还没有办法完全实现和云侧媲美,因此云端一体已经成为了AI终端厂商的优选解决方案。

最后是产业生态的深度协同,大模型层出不穷,但是站在产业发展的角度,在技术共研、数据共享,业务场景等方面共创,才能推动整个产业链的健康发展。

“国云”如何做智算云?

柯瑞文表示,天翼云作为国云的框架从基本成型到全面成型,“息壤”“云骁”“慧聚”三大平台的建成标志着天翼云作为国家云已经越过向智能云发展的拐点,进入了新的发展阶段。国云的发展已经走出了一条符合自身特点的道路。

天翼云做智算云的自身特点可以概括为两点,云网融合和自主创新,其智算云体系由算力基础设施、智算平台能力、星辰大模型能力、数据要素能力等组成。

一是在智算平台能力方面,通过“息壤”“云骁”“慧聚”平台升级,不断提升算力调度能力、集群加速能力和多模型服务能力,提供自主可控智算服务,满足大模型训练及推理需求。

一体化计算加速平台“云骁”,具备超大规模集群管理、运营和算力加速能力,可提供通智超一体化服务,集“异构计算+高速存储+无损网络+算力加速+高效运营”于一体;一站式智算服务平台“慧聚”,是为大模型训练、推理、应用提供全栈工具链的智算服务平台,构建了模型训练、模型推理、运营运维、生态平台、智算容器、AI框架六大功能模块;算力分发网络平台“息壤”,天翼云攻克了算力插件、算力网关、算数协同等一系列关键技术,支持第三方算力与天翼云自有算力并网。

二是在星辰大模型能力方面,基于“通用大模型、行业大模型、垂直应用大模型”技术迭代,持续完善大模型能力,提升语言、视觉和多模态大模型的认知水平和推理性能。

三是在数据要素能力方面,通过“星海”“灵泽”“银河”平台升级,不断提升企业内部数据、政府公共数据、跨境数据等数据要素的治理、流通和应用创新能力,全面确保安全可靠。

四是生态合作,中国电信在研发开源、应用场景、数据要素、销售渠道等,与合作伙伴实现资源共享。

据了解,中国电信下一步将在自研AI框架、算子加速库,推进大规模GPU集群算子与国产芯片加速框架适配方面做更多技术工作,同时今年将在云、大数据、人工智能三大领域以及新型工业化与智慧城市两大重点应用领域,新开放超300个场景,与产业伙伴打造繁荣生态。

作者 | 张帅,编辑 | 盖虹达)

打开APP阅读更多精彩内容