预训练时代走向终结,然后呢?|对话AMD首席工程师、Nexa AI联创

Zhaoyang Wang | Chief Editor, GenAI Assembling

Zack Li | Co-founder & CTO, Nexa AI

Xiyue (Anderson) Xiang | Principle Member of Technical Staff, AMD

近日,已经霸屏中美AI头版多天、火得一塌糊涂的DeepSeek,继以对标GPT-4o的V3和对标o1的R1冲击硅谷模型界、血洗美股科技股市场后,再次发布了名为Janus-Pro的多模态模型系列。并称其图像生成表现已超越OpenAI的DALL-E 3,Google的Emu3-Gen和Stability AI的Stable Diffusion XL等领先产品。

从Ilya Sutskever的"预训练时代终结论",到横空出世的DeepSeek以超高性价比撼动AI格局,行业对AI算力需求是否迎来拐点,似乎成为不可回避的热门话题。

就在一周前,全球 AI 社区GenAI Assembling邀请到两位行业专家——Nexa AI CTO兼联合创始人Zack Li和AMD首席工程师、前SambaNova Systems 高级工程经理及创始成员Xiyue Xiang。他们分别从芯片端和设备端AI的角度,在硅谷展开了一场关于预训练和推理、AI算力需求转移、软硬件协同优化、端侧智能机遇,及行业未来走势的深度对话。

以下为对话实录:

Zhaoyang Wang:这场讨论的主题是"预训练走向终结——接下来是什么?"正如业内许多人所知,前半句话出自Ilya Sutskever,而今天我们要聊的是未来走向。很高兴邀请到两位杰出的嘉宾。Xiyue来自AMD,Zack来自Nexa AI。两位先做一下自我介绍。

Xiyue Xiang:感谢邀请,很高兴来到这里。我的中文名是XiYue,英文名是Anderson。我是AMD的首席工程师,主要专注于利用AI技术解决芯片工程中的挑战,也参与开发了几款面向SOC的AI驱动产品。在加入AMD之前,我是SambaNova Systems的创始团队成员,担任高级工程经理,带领团队交付AI加速器的系统固件和FPGA原型。

Zhaoyang Wang:谢谢Xiyue。那么Zack呢?

Zack Li:大家好!我是Zack Li,Nexa AI的CTO和联合创始人。创立Nexa以前,我在Google和Amazon工作了几年,专注于设备端AI。Nexa AI是一家由斯坦福校友创办的创业公司,专门研究设备端AI模型和AI基础设施。我们的主要产品之一是设备端AI Agent模型Octopus,并开发了OmniVision和OmniAudio两款多模态模型。这些开源模型在Hugging Face上非常受欢迎。我们还推出了Nexa SDK,支持在笔记本电脑和移动设备上运行设备端AI模型,在过去三个月获得了超过4,000个GitHub星标。我们的客户包括HP、Lenovo等。非常高兴能和大家分享!

Zhaoyang Wang:很高兴有来自不同领域的两位专家——一位来自芯片行业,另一位来自AI模型领域。也许可以先请Xiyue开始。由于不是所有人都熟悉芯片行业,你能给我们介绍一些基础知识吗,比如用于训练和推理的芯片有什么区别?

Xiyue Xiang:当然可以。简单来说,训练和推理对芯片的要求是不同的。

先说训练。训练模型就像在学校学习,数据量越大,模型就学得越好。因此训练本质上看重的是吞吐量,意味着芯片必须能实时高速地处理海量输入数据。训练过程中的不同操作——比如计算密集型、内存密集型或网络密集型任务——都需要特定的性能。

计算方面,在前向传播过程中,系统执行大量矩阵乘法和加法运算。在反向传播过程中,它会计算每一层权重的梯度。这些任务都非常计算密集,这就是为什么芯片厂商专注于提升芯片的计算能力(FLOPs或TOPs)。内存方面,训练时需要存储大量数据,包括模型的参数和中间计算结果。就像人需要同时记住很多信息,所以芯片需要同时提供大容量内存和极高的内存吞吐量。网络连接方面:当我们用多个芯片协同训练时,它们之间需要快速交换数据,就像团队成员之间需要高效沟通一样。这需要高速互连和可扩展的解决方案。

而推理就不同了。推理是一场延迟的较量,最重要的是反应速度。比如自动驾驶时,车必须能立即识别出路上的障碍物。推理主要的挑战在于如何快速调用存储的模型来得出结果。

总的来说,芯片厂商已经对AI工作负载有了更深入的理解,正在根据不同市场的独特需求定制他们的产品。

Zhaoyang Wang:这很有趣。据我了解,很多AI从业者使用相同的芯片进行训练和推理。你能详细说明这是否属实吗?如果预训练确实要结束了,芯片公司打算如何适应?

Xiyue Xiang:好的。我认为推理在未来将发挥更重要的作用。从我在SambaNova的经验来看,我们最初专注于构建训练解决方案,但最终因为推理市场的重要性日益提升而转向了这个方向。对于超大规模计算服务商来说,对训练和推理使用相同的硬件和软件架构通常是有意义的,因为这样既经济又实用。然而,对于那些只专注于推理的客户来说,一个更具成本效益的解决方案可能更可取。这是我的观点。

Zhaoyang Wang:谢谢。下一个问题是给Zack的。当我们谈到预训练即将结束这个观点时,背后还有一个理论,就是算力正从训练阶段转向推理阶段。具体来说,推理可以分为两部分:一部分在云端,另一部分,也就是你们关注的重点,在设备端。你认为这个趋势会成为现实吗?这对你们公司意味着什么?我记得你们公司现在有两年历史了,对吗?

Zack Li:没错,两年了。Nexa AI从一开始就专注于设备端AI,在推理方面投入了大量研发资源。我们开发了SDK以 及量化解决方案,可以将模型尺寸缩小到能在平板电脑或手机上运行。这个趋势完全符合我们公司的愿景和研发方向。我们注意到,虽然模型正在变得更小更智能,但基础设施方面仍然存在明显的差距。以PyTorch为例,目前还没有成熟的基础设施能在移动设备上高效运行大型模型。我们正是看准了这个机会,开发了用于压缩和部署模型到边缘设备的工具包。

Zhaoyang Wang:这很有意思。能详细说说你们在小型模型技术方面的进展吗?

Zack Li:当然可以。要让模型能在设备上高效运行,工具包需要轻量化且通用。

让我问问:在座有多少人使用过PyTorch或做过基础张量运算?如果有,请举手。——好的,比我预期的人数还多。那么,有多少人尝试过在笔记本电脑上使用Hugging Face之类的工具来运行模型?请举手。——看来只有少数人试过。

这就是问题所在。如果你用过PyTorch或基于云的解决方案,你就会知道它们通常带有庞大的工具包——通常下载量超过1GB。这些工具包在不同后端之间的兼容性也不是很好。比如,PyTorch在AMD设备上需要Rocm后端,在NVIDIA设备上需要CUDA后端等等。这种可扩展性差是一个主要挑战。为了解决这个问题,我们开发了一个精简的工具包提供给企业客户。这些工具包可以将模型——无论是从我们这里下载的还是从Hugging Face等平台下载的——压缩并扩展到各种设备上,包括手机、笔记本电脑、机器人,甚至自动驾驶系统。

Zhaoyang Wang:很酷。我还有个后续问题:你提到你们作为一个两年的创业公司,押注于小型模型和推理的重要性,但竞争一定是个因素。像Meta、Google和OpenAI这样的大公司也在构建自己的大模型,而小模型通常来自于这些大模型的蒸馏。有人认为,只有能够创建最好的大模型的公司才能生产出最好的小模型。你怎么看待这种竞争?

Zack Li:这是个很好也很难回答的问题。我来分享一个有趣的故事。2024年5月,我们受邀到Apple Park为他们的高管做演讲。仅仅一周后,在WWDC上,Apple发布了他们的设备端AI解决方案Apple Intelligence。他们在这方面投入了很多精力,提供了不同的模型,从较小的设备端版本到较大的版本都有。内部甚至有传言说这些设备端模型是从更大模型蒸馏而来的。

在设备端AI领域,像Apple、Google和Microsoft这样的大公司在计算能力和数据获取方面有显著优势。但他们的方法通常是将基于云的解决方案缩小到设备端,目标是创建能处理广泛任务的模型。相比之下,我们专注于设备端AI的特定实际应用场景,使我们的模型高度专业化并针对客户需求进行优化。

比如,我们开发的Optimus模型就是专门为设备端AI Agent设计的。它达到了GPT-4级别的函数调用准确率,在推理和问答方面表现非常出色。这种专业化使我们能够提供更有针对性和更有效的解决方案。

另一个关键区别是基础设施。像Apple这样的大公司主要为自己的硬件设计系统。比如Apple Intelligence本质上是推广他们最新iPhone的一种方式。他们没有动力去支持旧款机型或Android设备。相比之下,我们建立了一个跨平台的基础设施——无论是Android、iOS、macOS、Windows还是Linux都可以使用。

我们的解决方案兼容各种设备,包括那些带宽较低的设备。大公司通常专注于自己的生态系统,比如Apple的Mac生态系统或Google的Pixel生态系统,并不优先考虑跨平台兼容性。这正是我们看到的巨大机会所在。

Zhaoyang Wang:我觉得这意味着你们需要在成为领域专家和构建跨生态系统可扩展平台之间取得平衡。

Zack Li:没错,要能扩展到不同的生态系统。

Zhaoyang Wang:这也反映了AI领域的一个更广泛的趋势。边界变得越来越模糊——软件工程师需要了解硬件,芯片设计师需要知道算法如何运作。我的下一个问题就基于此:OpenAI正在用新的o1系列替代GPT,我们也看到了像DeepSeek这样的先进模型。它们的成功似乎来自于高度优化的硬件和软件深度协同来最大化模型的运行效率。Xiyue,AMD是如何通过软件开发来加强自己在这个不断发展的领域中的地位的?

Xiyue Xiang:在讨论AMD的策略之前,我想先更好地梳理这个问题。目前,在扩展AI能力方面存在两个主要挑战。一是提升AI模型本身的可扩展性,二是降低训练这些模型的成本。

举个例子,大家可能都知道OpenAI在训练GPT-4时已经用尽了大部分高质量训练数据集。虽然扩展定律是否仍适用尚不清楚,但几个月后,他们发布了GPT-4 Turbo,引入了多模态功能,然后他们又增加了一个新维度:测试时计算。测试时计算本质上允许模型在提供答案前"思考更长时间",使其能够改进和验证响应以提高可扩展性。这就是像o1和o3这样的模型背后的核心理念。

从成本角度来看,去年12月DeepSeek V3的发布就是个很好的例子。他们成功地用550万美元训练了一个6710亿参数的模型——比用H100 GPU训练同等规模模型通常需要的5亿美元大大减少。他们通过混合专家架构和混合精度训练等创新实现了这一目标,这让他们能够使用更便宜的计算资源却获得可媲美的结果。

如果没有软硬件的端到端优化,这些挑战是无法解决的。仅仅有一个强大的芯片是不够的。我见过很多优秀的公司制造出很棒的芯片,但他们却难以创建可扩展和高效的软件。举个例子,你可以设计一个具有一个petaflop计算能力的芯片,但如果你的软件效率低下,你可能只能使用20%的性能——浪费了80%。

说到AMD,我们正在通过三个主要方面来扩展我们的软件能力。首先,我们开发了自己的开源软件平台ROCm(Radeon Open Compute),它专门用于编程GPU和像MI300这样的AI加速器。其次,我们通过战略收购来扩展。例如,我们去年收购了Silo AI,2022年收购了Xilinx,我们可能会继续进行类似的交易。最后,也许是最重要的,我们致力于建立一个强大的生态系统,实现与PyTorch和TensorFlow等流行框架的无缝集成。我们还在与主要的AI基础设施供应商密切合作,确保我们的硬件和软件解决方案都具有可扩展性和高效性。

Zhaoyang Wang:很好。现在问问Zack。在机器学习工作流程和训练方面,Nexa AI是如何更好地"榨干"硬件的全部潜力的?

Zack Li:我注意到一些公司采用硬件-软件协同设计的方法。我认为这是一个很好的商业模式,因为它允许他们通过直接销售硬件获得更多利润。但这也带来了挑战,比如管理物流链和处理制造流程。

在Nexa AI,因为我的核心团队主要由算法和AI专家组成,我们更专注于模型层面。我们开发的工具包允许开发者将模型部署在各种设备上——无论是笔记本电脑、手机还是机器人。这些年来,我们试用过NVIDIA的软件,也试用过Intel的和AMD的。我逐渐意识到,软件正在成为芯片公司吸引客户和开发者(特别是个人开发者)的关键因素。以Intel的OpenVINO为例,如果你购买Intel的台式机或笔记本电脑,你就能充分利用他们的NPU(神经网络处理器),它是开源的。在今年CES,我看到三四家创业公司完全基于Intel的NPU构建他们的软件栈。同样,我也看到创业公司基于AMD的GPU开展业务。

所以,软件效率正在成为一个关键的差异化因素,特别是对创业公司而言。虽然FLOPs和RAM这样的规格很重要,但芯片公司在这些领域的产品往往很相似。因此,软件栈成为许多开发者和客户选择硬件时的决定性因素。

Zhaoyang Wang:从你的角度来看,什么是好的软件?

Zack Li:但就个人而言,我认为他们的工具包都很不错,我们当然希望进一步加强合作来改进它。

Zhaoyang Wang:也许我们可以讨论一下未来:芯片领域的下一个重大突破是什么,我们在技术突破方面可以期待什么?

Xiyue Xiang:当我们谈论芯片设计方面可能发生的事情时,我想从五个角度来探讨:工艺技术、计算、内存、网络和封装。

首先是工艺技术。大家都说摩尔定律即将终结,也许这是对的。但工艺制程会继续缩小这个趋势是不可否认的。这使我们能够集成更多晶体管并减少功耗,尽管速度比以前慢。从台积电和英特尔的进展就可以看出这一点。我相信这个趋势会持续,直到量子计算等颠覆性技术成熟。

第二是计算。芯片厂商和创业公司正在投入大量精力设计专门的计算单元,以支持各种精度和稀疏性。他们还在探索新兴架构,如数据流架构,以克服传统冯·诺依曼系统的局限性。

第三,让我们谈谈内存,特别是HBM(高带宽内存)。HBM已经被采用来解决AI时代至关重要的内存带宽和延迟问题。我相信HBM在性能、密度和容量方面会继续发展。但它非常昂贵。为了平衡成本和性能,芯片厂商可能会探索将SRAM、HBM和DDR内存结合起来的分层内存层次结构。这种方法有助于优化成本、带宽和延迟之间的平衡。

第四是网络。网络可扩展性有两个维度:向上扩展和向外扩展。向上扩展涉及提升单个系统或节点的性能。向外扩展意味着复制多个系统来解决单个问题,这需要在传输协议方面的创新,如RoCE(融合以太网上的RDMA)、NVLink或新兴的UCIe(通用芯片互连快车)等。这也要求交换机厂商创造更可扩展和经济的解决方案来构建更大的网络。

最后是封装。我们目前有2.5D封装(CoWoS)和3D封装(基于TSV的技术)。最近,Broadcom宣布了一种叫做3.5D封装的技术,尽管具体细节还不是很清楚。我猜测这是2.5D和3D技术的结合,能够将多个芯片拼接在一起形成更大的芯片。这与向基于芯片组的系统级模块(SoM)发展的趋势相符,这正在推动封装技术的发展。

Zhaoyang Wang:我的最后一个给Zack。关于设备端AI,越来越多的人认为这将是下一个重大突破。这也意味着商业模式可能会发生根本性的改变。比如,在基于云的AI中,大多数盈利都与使用多少token有关——向云端发送数据、处理数据,然后接收输出,所有这些都需要付费。然而对于设备端AI,当有人购买智能手机时,他们实际上已经为计算能力付费了,因为所有操作都在设备本地进行。他们不需要为发送到云端的token付费。作为一个创业公司的创始人,你在这里看到新的商业模式机会吗?

Zack Li:设备端AI的商业模式——如何商业化或盈利——确实与基于云的解决方案不同。首先,我同意设备端AI正在势头渐起。Apple Intelligence帮助提高了公众对设备端AI的认识,展示了它的能力。此外,a16z的管理合伙人Jennifer Li提到2025年将是边缘AI起飞的一年。我们甚至在办公室里highlight这句话来激励团队。

说到盈利,设备端AI需要一种不同的方法。与云AI中基于token的模式不同,设备端AI的盈利通常涉及与像AMD这样的芯片公司和智能手机、笔记本电脑制造商等OEM厂商的密切合作。这种模式通常按设备、按安装次数对边缘设备收费。这不是我们独有的模式——其他几家设备端AI公司也在使用这种方法。

Zhaoyang Wang:为了结束这次讨论,作为行业的不同视角,现在你们可以互相向对方提问一个最感兴趣的问题。Xiyue,你先来。

Xiyue Xiang:Zack,考虑到AI能力明显从云端向边缘设备转移的趋势,你认为2025年最大的机会是什么?

Zack Li:这是个很好的问题。我认为最大的机会在于创建一个可以跨各种硬件平台扩展的解决方案。云和硬件生态系统的主要区别在于,在云端,你可以使用像CUDA这样的单一工具包,但在边缘设备上,硬件环境要分散得多。比如,一台笔记本电脑可能有来自不同厂商的CPU、GPU和NPU,要创建一个能有效利用所有这些组件的可扩展解决方案并不容易。

任何能巧妙解决这个问题的人都将获得显著优势。这就是为什么我们在这个领域投入巨资——确保AI模型能在不同硬件上高效运行。现在,可能只有十分之一的人有使用PyTorch的经验,可能只有百分之一的人使用过工具包在笔记本电脑上运行模型。我希望到今年年底,我们能看到每100人中有10个甚至20个人在他们的设备上运行大型边缘AI模型。

Zhaoyang Wang:很好。那么Zack,你有什么问题要问Xiyue?

Zack Li:Xiyue,随着你提到的从云端到边缘的转变,你认为我们很快就能看到支持个性化AI的硬件,能够在设备本地完全理解和学习吗?如果是,这可能在什么时候发生?

Xiyue Xiang:首先,我完全同意人们对个性化AI解决方案有强烈需求。我很希望我的手机能学习我的习惯,在我做决定时提供量身定制的建议。其次,要获得无缝的AI体验,我们需要能记住并根据我们的个人经历进行调整的AI系统,因为这定义了我们是谁以及我们如何处理问题。

从这两个角度来看,需求是不可否认的。而且,我注意到主流AI框架开始支持设备端训练。例如,PyTorch、TensorFlow Lite和ONNX都已经开始启用这个功能。Google正在积极开发这方面的内容,Apple也开始支持这些努力。这表明供应商认识到了对设备端训练的强烈需求,并认为这是一个可行的方法。在我看来,我们很可能在未来几年内看到这个领域的成熟产品。

Zhaoyang Wang:谢谢大家!

打开APP阅读更多精彩内容