21世纪经济报道记者李强 北京报道
北京时间3月21日23点,2023春季GTC大会正式上线,英伟达CEO黄仁勋围绕AI、量子计算、芯片等前沿科技,发布了一系列前沿技术和产品。
在OpenAI的ChatGPT与谷歌的Bard争得不可开交的情况下,作为AI淘金潮中的卖水工,英伟达可谓是赚得盆满钵满。英伟达数据中心业务在2022年第四季度为公司带来了60.5亿美元的收入中的36.2亿美元,这也意味着,提供A100等芯片的数据中心业务已经在上个季度为英伟达贡献了近六成的收入,与此同时,英伟达股价今年以来更是狂涨79%。
不过,黄仁勋表示,并没有预见今天的一切,也不把英伟达的成功视作是幸运。“我预见的是,加速计算机的发展,而不是AI的发展,我们做了很多伟大的决定,包括搭建平台,并且让每个人都能够连接到这个平台,和全球的研究型大学建立联系等。我们只是相信,在某一天,总有一些新的东西会出现。”
黄仁勋在GTC大会上表示,生成式AI令人印象深刻的能力让每个公司产生了一种紧迫感,需要重新构想这些公司的产品和商业模式。
英伟达表示,对于AI行业重中之重的A100芯片和下一代产品H100芯片,英伟达对代工厂的订单持续增加,同时,英伟达将全力投入AI技术,推出新服务和硬件,旨在为一系列AI产品提供动力。
“我们正处于人工智能的iPhone时刻。”黄仁勋强调表示。
为AI量身定制算力
ChatGPT卷起AIGC热潮,也迅速拉高了算力需求,围绕AI的发布会自然也不会缺少GPU的提速。
在GTC大会上,英伟达发布了全新的GPU推理平台,包括4种不同配置,针对不同工作负载进行优化,分别对应了AI视频加速、图像生成加速、大语言模型(LLM)加速和推荐系统和LLM数据库,包括L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超级芯片。
其中,L4是针对AI生成视频的通用GPU,用于加速AI视频,可以提供比CPU高120倍的性能,能效提升约99%。可以优化视频解码与转码、视频内容审核、视频通话等性能,一台8-GPU L4服务器可以取代100多台用于处理AI视频的双插槽CPU服务器。目前,英伟达GPU在AI视频生产技术供应商Runway的产品中已经提供了相应的技术支持。
L40则是用于图像生成,针对2D、3D图像生成进行优化,并可以结合Omniverse,直接生成3D内容,甚至是元宇宙内容。该平台推理性能是英伟达的云推理GPU T4的10倍。
H100 NVL是专门为大语言模型设计的GPU,采用了Transformer加速解决方案,可用于处理ChatGPT。此外,H100 NVL配备94GB HBM3显存的PCIe H100 GPU,采用双GPU NVLink,支持商用PCIe服务器轻松扩展。
“当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。”黄仁勋说道。
“NVIDIA H100依靠在工艺、加速引擎、机密计算、互联技术、指令集等方面的创新,为人工智能基础设施提供了源源不断的动力。普通公司可以通过LLM以及GPT-4定制自己的生成式AI语言模型。NVIDIA Grace CPU和Hopper GPU提高了通信带宽,提供了更快的CPU-CPU和内存读取和写入,使得大模型的训练更加迅速。同时,Grace CPU引入了额外的LPDDR5X内存为Hopper GPU提供额外存储,极大地增加了可训练的语言模型的大小,并为训练生成式AI提供更加强大的后台支持。由于单个GPU性能的提升和能效比的提升,相比于上一代数据中心,新一代架构可以降低2~3倍的训练成本。”有学术界人士对21世纪经济报道记者表示。
Grace Hopper超级芯片是为推荐系统和大型语言模型AI数据库设计的,可用于图推荐模型、向量数据库和图神经网络。它可以通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
“NVIDIA Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。另外Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,内存计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。”上述学术界人士表示。
云上训练模型
本次GTC大会,另一个重头戏是云。
英伟达发布DGX Cloud云服务,提供专用的NVIDIA DGX AI超级计算集群,搭配NVIDIA AI软件,使每个企业都可以使用简单的网络浏览器访问AI超算,消除了获取、部署和管理本地基础设施的复杂性。
英伟达表示,DGX Cloud是一项月租服务,该服务为企业客户提供了训练他们自己的生成式AI模型和其他应用程序所需的超级计算能力,允许客户通过云快速设置大型多节点训练工作负载,从而减少大型模型的训练和开发时间。
该服务目前已经与Microsoft Azure、Google GCP和Oracle OCI开展合作。每个DGX Cloud实例都具有八个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存。
使用NVIDIA Networking构建的高性能、低延迟结构,可以确保工作负载跨互连系统集群扩展,允许多个实例充当一个巨大的GPU,以满足高级AI训练的性能要求。
目前,英伟达开放的首个NVIDIA DGX Cloud,是与Oracle Cloud Infrastructure(OCI)合作的云服务,用户可以租用DGX Cloud的月租为36999美元起。
此外,英伟达还公布了其新的AI Foundations服务,该服务将允许公司用户根据他们提供的数据构建和运行自己的大型语言和生成式AI模型。该服务包括语言模型NEMO、视觉模型PICASSO和生物学模型BIONEMO。
其中,NEMO是用于自然语言文本的生成式模型,可以提供80亿、430亿、5300亿参数的模型,且会定期更新额外的训练数据,可以帮助企业为客服、企业搜索、聊天机器人、市场分析等场景定制生产生成式AI模型。
PICASSO则用于制作视觉模型,可以用于训练包括图像、视频和3D应用的生成式AI模型。PICASSO可以通过高文本提示和元数据用DGX Cloud上的模型创造AI模型。目前英伟达已经与Shutterstock合作,开发了Edify-3D生成式AI模型。
本次GTC英伟达还着重关注生物制药领域,BIONEMO也是专门为用户提供创建、微调、提供自定义模型的平台,包括AlphaFold、ESMFold、OpenFold等蛋白质预测模型。生物圈的热门方向是利用生成式AI发现疾病靶因、设计新分子或蛋白类药物等。
“大模型产业链下游是需求各异的海量客户,有钱的、在意数据隐私的大客户会直接找fabless定制微调后的大模型,类似现在微软找AMD定制数据中心CPU;钱少的、愿意‘拿隐私换方便’的小客户,则将通过云端推理的方式直接使用大模型工具。”沐曦光启智能研究院科学家李兆石分析认为。
英伟达表示,到目前为止,包括Adobe、Getty Images、晨星、Quantiphi和Shutterstock等知名企业正在使用这一新平台构建AI模型。例如,Adobe正在使用该软件构建图像和视频的生成式AI模型,最终将嵌入到Photoshop、Premiere Pro和After Effects等软件中。
对于国内GPU厂商未来应如何应对,上述学术界人士对记者表示,“从H100上,包括专用的transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。NVIDIA的一个重要护城河就是他的从应用,软件,程序库,到紧密结合的硬件的整个生态系统。国产GPU厂商除了硬件本身,更应该关注整个软件生态的建设,从下游的应用出发,从一个领域着手,根据需求去定制计算硬件。”(本报记者倪雨晴亦有贡献)