HC 2024 | 华为智算运维解决方案MindOPS正式发布

华为全联接大会于2024年9月19-21日在上海举办。大会以“共赢行业智能化”为主题,与全球行业精英、技术专家、合作伙伴、开发者等共同探讨如何把握战略机遇,通过行动共赢智能化未来。在华为全联接大会2024的创新解决方案与实践开放演讲上,华为智算运维解决方案产品总监李海东进行了“智算运维解决方案”的主题演讲。

图片 1.png

华为智算运维解决方案产品总监 李海东做主题分享

首先,华为认为 AI 时代已经来临,国内外大模型仍在持续演进的产业趋势下,中国的算力需求将会持续规模增长。其次,华为指出,随着澎湃的算力需求增长,会加速智算集群向超节点和大规模集群的技术架构演进,智算集群的复杂度提升,势必会给客户带来训练任务中断后恢复慢、软硬故障跨域跨层定位定界难以及海量器件运维复杂度高的三大智算运维挑战。

为应对解决智算集群运维面临的这三大挑战,华为提出了从组织保障,流程制度,指标度量和运维平台建设 4 个方面重新构建面向基础设施运维和面向训练任务保障的智算运维体系的观点和建议,并分享了华为在智算运维流程重构、智算运维指标体系定义、智算运维平台核心能力打造以及智算运维服务解决方案构建等方面取得的阶段性进展和经验。

图片 2.png

最后,华为正式发布了智算运维解决方案MindOPS,华为智算运维解决方案以帮助客户彻底解决智算运维面临的三大挑战为目标,以全新打造的智算运维平台为底座,以智算集群为运维对象,分别提供面向基础设施的运维服务和面向训练任务的保障服务,帮助客户实现智算集群训练少中断,中断快恢复,运维更省心!

面向未来,华为将持续聚焦智算运维领域的投入,帮助客户用好和管好智算集群,让智算运维为客户持续创造更大的价值!

打开APP阅读更多精彩内容