华为:引领智算中心光互联革命,DC-OXC以光为基改写全球AI竞合规则

C114讯 4月21日专稿(蒋均牧)当大模型参数量突破万亿级、智算集群规模向百万卡迈进,智算中心作为数字经济的核心基础设施,正面临前所未有的挑战与机遇。如何以更低的功耗承载更高的带宽,如何以更灵活的架构支撑动态的算力需求,如何以更可靠的联接保障持续的训练?答案,或许就藏在光互联技术的革新中。

就在4月17日下午举办的“超大规模智算中心:1.6T时代的全光互联”上,华为光产品线专家刘晓妮系统阐述了智算中心光互联的演进趋势与华为创新成果。她指出,谷歌作为行业先行者,已在数据中心网络(DCN)核心层和智算参数面规模化部署全光交叉(OCS),完成了90%的替代,并推动OCS从“单点突破”走向“全局重构”。而华为推出的数据中心全光交叉(DC-OXC)解决方案,通过光电混合架构与动态拓扑调度能力,为超万卡集群的弹性扩展与高效协同提供了全新范式。

从谷歌实践,看光互联核心价值

LightCounting数据显示,2024年以太网光模块市场规模突破100亿美元,同比增长近100%,未来五年仍将保持15%~18%的复合增速。增长背后,是超大规模集群对高速互联的极致追求:英伟达Rubin架构下,288卡GPU集群需5184个1.6T光模块,传统电互联在密度与功耗上渐渐变得难以为继。

谷歌的探索为行业提供了重要参考,其Jupiter网络通过OCS替代传统电交换机核心层,实现了跨代际网络的高效互通。刘晓妮援引谷歌公开数据指出,OCS的引入使DCN核心层不再受电芯片迭代周期束缚,网络拓扑可按流量亲和性动态调整,效率提升10倍,停机时间减少98%,同时降低40%功耗与30%设备投资。

刘晓妮强调,OCS不仅是联接工具,更是算力资源动态调度的核心枢纽。谷歌将OCS下沉至智算参数面,基于3D-Torus架构构建TPU集群。以TPU v4为例,64个机柜通过OCS互联,形成4096卡的超大规模算力单元,故障隔离效率提升50倍,集群可用性从8%跃升至75%。谷歌TPU v7延续了这一架构,并在6000卡集群中完成PaLM大模型训练,验证了光互联在超大规模AI训练中的可行性。

华为DC-OXC:破解智算中心三大困局

随着智算集群规模的迅速膨胀,全球智算中心建设普遍面临着“规模受限、可靠性衰减、效率瓶颈”三大挑战。有鉴于此,华为推出了DC-OXC解决方案,以三层创新实现破局。

首先是架构之变,从“堆叠枷锁”到“乐高式扩展”:传统CLOS架构受限于电交换机端口密度,万卡集群需多层堆叠,导致时延与拥塞点激增。华为DC-OXC在顶层构建全光交换平面,支持计算单元(POD)按需分批接入,理论可扩展至百万卡规模。“光层一次规划、电层分步扩容”的模式,既降低初期投资门槛,又避免重复布线带来的资源浪费。

可靠性跃升,光模块故障削减92%的“零妥协”:据统计,光模块故障占智算网络故障的92.3%,而华为DC-OXC采用免光模块设计,通过MEMS微镜阵列实现全光交换,端口可靠性提升20%以上。实测数据显示,光电混合架构下,网络平均无故障时间(MTBF)较全电方案优化超20%,年停机时间减少25%。华为CloudMatrix 384超节点更将断点恢复时间压至10秒级,支撑大模型训练稳定运行40天。

效率优化,跳数减1,性能增益3.5%:在时延敏感型场景中,华为DC-OXC通过扁平化架构将传输跳数从5跳降至4跳,单跳时延降低5~6μs。仿真和实测显示,可助力GPT-MoE等模型训练任务吞吐量提升1.5%~3.5%,小规模集群实测性能增益达2%。在推理场景下,一次All-to-All通信时延减少6.57μs,58层模型静态时延累计降低762μs,10ms场景性能可提升7%。此外,光互联的物理隔离特性还为多租户场景提供了更高的安全性和灵活性。

从谷歌的OCS规模化实践,到华为DC-OXC的多场景突破,光互联正从“技术选项”升级为“战略必选”。基于光电混合架构的“稳定光底座”将成为平衡规模、效率与成本的核心基础设施,而华为通过端到端光技术创新,为全球智算中心提供了一条清晰、高效的演进路径——以光为基,改写全球AI竞合的规则。

打开APP阅读更多精彩内容