大模型时代,阿里云怎么做好云网络?

撰文:李信马

11月15日,阿里巴巴发布了三季度财报,其中阿里云业绩表现亮眼,营收为296.1亿元人民币,同比增长7%,一扫此前几个季度的低迷,经调整后EBITA利润达到26.61亿元,同比增长89%。

值得一提的是,这也是“AI含量”极高的一份财报,通篇对AI的重视跃然于纸上。过去一年,阿里云战略转向“AI驱动,公共云优先”,终于呈现成功的曙光。

自2009年算起,阿里云已经走过了15年的春秋。在云计算发展的初期,客户多为业务类型相对简单的中小企业;随后,政府单位、传统制造业企业也逐渐加入;而今,互联网公司、科技企业成为云计算的重要客户。企业上云也是循序渐进,例如阿里巴巴自身就是从淘宝、天猫周边应用上云,之后核心交易系统、支付系统陆续迁移至云端,直至全面上云。

与此同时,云计算也从提供简单的单一产品,到如今复杂的产品组合。早期上云可能仅需一个虚拟主机和一个公网IP,随着需求的增加,客户开始寻求更高级的服务。全球范围内,大模型已经如火如荼的发展了两年,云计算的客户们,也在追求更先进的AI产品和服务。

在不久前的第七届SD-WAN & SASE大会暨云网络大会上,阿里云智能云网络产品线技术架构负责人李星表示,AI会大力推动云计算的使用。

“比如我们在大规模训练中需要依赖资源高度集中,集约化资源,无论是对电力、算力,还是数据的资源,越是集约化、大规模的使用,效率越高,AI依赖的特征,包括AI训练依赖的特征,和今天的云计算是非常匹配的,云计算能够非常好的满足AI在训练业务上对算力资源集约化发展、高效率运用的需求。”

而未来,随着大模型的成熟和AI应用的普及化,AI推理对算力资源的使用将大幅度超过AI训练,AI应用有在线化、服务化、数据化的诉求,这也将推动企业更大规模上云或更深度地去使用云。

网络是云计算的重要组成和基础设施之一,AI的发展也离不开网络的发展。“比如AI业务的训练过程,一定需要一个高性能、高带宽、大规模的网络。网络的发展还是比较迅速的,比如Scale-out(横向扩展)网络里大规模的RDMA互联,从几百卡到千卡到万卡,带宽也是从百GB到现在的200G、400G,最新的一台服务器网络带宽通过多卡叠加已经达到了3.2T,发展速度大幅超过我们原来面向以CPU为中心通用算力的网络。”李星说道。

会上,阿里云智能集团资深总监、云网络产品负责人孙成浩,分享了他对当下AI发展趋势,和未来云网络发展的看法。

阿里云智能集团资深总监、云网络产品负责人 孙成浩

孙成浩表示,近期阿里云的增长,主要驱动力就是AI,包括基础设施部分的消费和大模型应用的消费。对AI训练需求的增长,带动了全球IaaS的增长(主要体现在GPU的增长上)。

“我们自己从云网络的角度来看,我们的产品服务比较好的满足了大模型这一波市场增量的技术需求,解决了一些场景化的问题。比如上午提到的数据传输,在大模型卡资源比较稀缺或者说分布不均衡的情况下,通过高性能的云网络可以进行一个跨域的数据传输和资源调度。

阿里云也基于大模型的场景对智算基础设施做了许多创新,对全栈的软硬件进行了相应的提升和优化,除此之外,云网络面向大模型领域内的细分场景也提供了丰富的产品能力,例如访问大模型服务提供了安全和隔离的私网连接的产品。

同时,我们和运营商之间会有很多合作,比如在跨境领域上,和联通进行深度合作,用公有云的基础设施加上运营商的资源服务客户,以及服务海外客户。利用AI的方式和手段,更好地为各行各业客户应用做好基础设施储备。

打开APP阅读更多精彩内容