大模型时代，阿里云怎么做好云网络？_

大模型时代，阿里云怎么做好云网络？

撰文：李信马

11月15日，阿里巴巴发布了三季度财报，其中阿里云业绩表现亮眼，营收为296.1亿元人民币，同比增长7%，一扫此前几个季度的低迷，经调整后EBITA利润达到26.61亿元，同比增长89%。

值得一提的是，这也是“AI含量”极高的一份财报，通篇对AI的重视跃然于纸上。过去一年，阿里云战略转向“AI驱动，公共云优先”，终于呈现成功的曙光。

自2009年算起，阿里云已经走过了15年的春秋。在云计算发展的初期，客户多为业务类型相对简单的中小企业；随后，政府单位、传统制造业企业也逐渐加入；而今，互联网公司、科技企业成为云计算的重要客户。企业上云也是循序渐进，例如阿里巴巴自身就是从淘宝、天猫周边应用上云，之后核心交易系统、支付系统陆续迁移至云端，直至全面上云。

与此同时，云计算也从提供简单的单一产品，到如今复杂的产品组合。早期上云可能仅需一个虚拟主机和一个公网IP，随着需求的增加，客户开始寻求更高级的服务。全球范围内，大模型已经如火如荼的发展了两年，云计算的客户们，也在追求更先进的AI产品和服务。

在不久前的第七届SD-WAN & SASE大会暨云网络大会上，阿里云智能云网络产品线技术架构负责人李星表示，AI会大力推动云计算的使用。

“比如我们在大规模训练中需要依赖资源高度集中，集约化资源，无论是对电力、算力，还是数据的资源，越是集约化、大规模的使用，效率越高，AI依赖的特征，包括AI训练依赖的特征，和今天的云计算是非常匹配的，云计算能够非常好的满足AI在训练业务上对算力资源集约化发展、高效率运用的需求。”

而未来，随着大模型的成熟和AI应用的普及化，AI推理对算力资源的使用将大幅度超过AI训练，AI应用有在线化、服务化、数据化的诉求，这也将推动企业更大规模上云或更深度地去使用云。

网络是云计算的重要组成和基础设施之一，AI的发展也离不开网络的发展。“比如AI业务的训练过程，一定需要一个高性能、高带宽、大规模的网络。网络的发展还是比较迅速的，比如Scale-out（横向扩展）网络里大规模的RDMA互联，从几百卡到千卡到万卡，带宽也是从百GB到现在的200G、400G，最新的一台服务器网络带宽通过多卡叠加已经达到了3.2T，发展速度大幅超过我们原来面向以CPU为中心通用算力的网络。”李星说道。

会上，阿里云智能集团资深总监、云网络产品负责人孙成浩，分享了他对当下AI发展趋势，和未来云网络发展的看法。

阿里云智能集团资深总监、云网络产品负责人孙成浩

孙成浩表示，近期阿里云的增长，主要驱动力就是AI，包括基础设施部分的消费和大模型应用的消费。对AI训练需求的增长，带动了全球IaaS的增长（主要体现在GPU的增长上）。

“我们自己从云网络的角度来看，我们的产品服务比较好的满足了大模型这一波市场增量的技术需求，解决了一些场景化的问题。比如上午提到的数据传输，在大模型卡资源比较稀缺或者说分布不均衡的情况下，通过高性能的云网络可以进行一个跨域的数据传输和资源调度。

阿里云也基于大模型的场景对智算基础设施做了许多创新，对全栈的软硬件进行了相应的提升和优化，除此之外，云网络面向大模型领域内的细分场景也提供了丰富的产品能力，例如访问大模型服务提供了安全和隔离的私网连接的产品。

同时，我们和运营商之间会有很多合作，比如在跨境领域上，和联通进行深度合作，用公有云的基础设施加上运营商的资源服务客户，以及服务海外客户。利用AI的方式和手段，更好地为各行各业客户应用做好基础设施储备。

打开APP阅读更多精彩内容