CoreWeave公司(CRWV)2026财年企业会议

声明:以下内容由机器翻译生成,仅供参考,不构成投资建议。

企业参会人员:

Harsh Banwait(产品总监)

Kirthi K. Devleker(技术营销负责人)

分析师:

身份不明的参会者

发言人:身份不明的参会者

好的,我想我们可以开始了。非常感谢各位今天参与我们的“机架级革命内幕:CoreWeave与Nvidia如何构建人工智能下一次飞跃的基础”会议。在我把发言权交给我们的发言人之前,我想先快速说明两项注意事项。首先,我们今天会对会议进行录制,结束后会将录音发送给大家。所以,如果您在网络研讨会期间错过了任何内容或想重温,都可以通过录音收听。

第二点,我们会在今天会议结束时留出问答时间。因此,如果您在网络研讨会过程中对我们的发言人有任何问题,只需将问题放在下方的问答框中,我们这边会实时关注。现在,我把发言权交给我们的发言人。Harsh,不如你先做个自我介绍吧。

发言人:Harsh Banwait

太棒了。大家好。感谢大家今天的参与。我叫Harsh,是CoreWeave的产品总监,今天和我一起的是Kirti,他是Nvidia的产品营销负责人。Kirti花了大量时间与客户和合作伙伴紧密合作。我们正在突破像Blackwell这样的平台的能力极限。我们非常兴奋能在接下来的一个小时里与大家探讨机架级革命的内幕,以及CoreWeave和Nvidia如何合作构建人工智能下一次飞跃的基础。在过去几年里,我们都见证了模型从数十亿参数发展到数千亿参数,现在进入了万亿参数时代。

这种转变使数据中心变成了人工智能工厂,在这些工厂中,机架、网络和冷却系统的设计方式与GPU本身同样重要。因此,在本次会议中,我们将向您介绍是什么推动了计算需求和模型复杂性的爆炸式增长,Nvidia最新的平台如Blackwell、Blackwell Ultra以及即将推出的Rubin将如何改变可能性,以及CoreWeave如何将这些技术转化为团队现在可以大规模用于训练和推理的生产就绪型基础设施。我们将结合实际部署、机器学习性能结果以及运营这些集群的经验教训,以务实的方式进行分享,我们很兴奋能与大家分享这些内容。

我先请Kirti来谈谈Blackwell。

发言人:Kirthi K. Devleker

好的。大家好,我叫Kirti。感谢Harsh的介绍,我在Nvidia加速计算部门负责产品营销活动。那么我们今天就开始吧。正如Harsh所提到的,我们现在看到人工智能已经发展出三种不同的扩展定律,这些定律基本上描述了计算资源以不同方式对模型性能的影响。因此,这些人工智能扩展定律共同反映了该领域的发展,随着技术在各种日益复杂的人工智能用例中需要额外的计算,这些用例由预训练扩展、训练后扩展和测试时扩展(也称为长思考或推理)定义。

为了让大家对整体情况有所了解,预训练扩展是人工智能发展的原始定律,是模型真正学习知识的阶段。目前有数千或数百个预训练模型,有些模型的训练使用了多达20万亿个令牌。一旦训练好模型,就进入了训练后阶段,在这个阶段,模型基本上学习如何思考或推理,而不仅仅是提供一些记忆的答案。每个模型在训练后阶段再次使用数万亿个令牌,这同样是计算密集型的。根据不同的用例和应用,也有数千上万个训练后模型。

最后,我们看到这一领域已经发展到测试时扩展,也称为推理。在这个阶段,大型语言模型(LLM)对输入提示生成响应,范围可以从简短的单一查询,例如“巴黎的首都是什么?”或者“法国的首都是什么?答案是巴黎。”,一直扩展到需要模型真正思考的确定性或冗长问题的答案。这要求模型战略性地将复杂任务分解为简单步骤,并提供经过深入研究或深思熟虑的响应。因此,所有这些扩展定律的复合效应推动了巨大的使用量和令牌利用率。

Nvidia支持所有这三种扩展定律,以推动各类组织的创新,并高效加速模型,以提供下一代人工智能推理。请转到下一张幻灯片。为了进一步展开,如果你观察这个领域的发展,你会发现模型规模逐年增长,在过去三四年里,每年的参数数量几乎增长10倍。同时,随着测试时扩展,即推理模型生成大量的思考令牌。

然而,降低生成这些令牌的成本对于能够大规模提供智能至关重要。在这样的背景下,这就是Nvidia构建Blackwell平台的原因。这是因为今天的人工智能计算机与以往任何构建的计算机都不同,计算的每个阶段,从数据处理到训练和推理,都对从GPU、内存、网络、交换机到所有组件提出了挑战。这就是Blackwell。对人工智能工厂的重大投资使得每个细节,即首次训练时间、可靠性、利用率、能源效率、令牌生成、吞吐量和响应能力,都至关重要。

Nvidia采用极端协同设计,这意味着我们优化从芯片、系统到软件和算法的每一层。它集成了七种不同类型的芯片。每个液冷机架为120千瓦,重约3000英镑,包含18个计算托盘。这就是一个机架,在同一个机架中,有9个内置交换托盘,使用两英里的NVLink铜缆连接72个Blackwell芯片,形成一个巨大的虚拟Blackwell GPU,具有1.4百亿亿次/秒的计算能力,这非常不可思议。放大来看,驱动这一切的是Blackwell Ultra。在每个计算托盘中,你会有四个Blackwell Ultra。

这是在之前的Blackwell产品基础上进行的扩展。Blackwell Ultra是专门为人工智能推理时代构建的。我们通过添加额外的NVFP4密集算术运算对Blackwell Ultra进行了升级。它大约有15千万亿次/秒的密集NVFP4计算能力。我们升级了HBM内存,比Blackwell或Hopper更大。这对于额外的KV缓存以及将所有计算和GPU内存保留在本地非常出色,这样模型可以更具响应性,并快速提供最佳答案。除此之外,我们还添加了新的功能,优化了整个LLM堆栈,特别是针对注意力机制。

Blackwell Ultra的注意力操作比Hopper提高了2.5倍。当然,所有这些都可以封装在Nvidia GB300 NBL72机架中。它具有1.1百亿亿次/秒的密集NVFP4推理性能,20太字节的HBM内存,结合Grace CPU。它有40太字节(约37太字节)的快速内存,通过72个GPU的内置域完全连接,允许130太字节/秒的带宽进入统一的GPU域。Ultra是为大规模人工智能设计的,包括专家混合和推理。从Blackwell Ultra GPU本身开始,如前所述,凭借所有的NVFP4计算和注意力加速,它由两个物理学可构建的最大独立芯片组成。

保持在芯片内可获得最大性能。我们还通过Blackwell和Blackwell Ultra显著增加了内置域,72个GPU通过NVLink和NVLink交换机相互通信,速度为1800吉字节/秒,总共提供130太字节/秒的带宽。最后,我们的软件堆栈也针对MOE和推理进行了显著优化。这些创新包括新的并行技术、新的计算内核和新的通信内核,同时确保非常高的模型准确性,以及其他软件堆栈如TRT LLM和TRT模型优化器。Nvidia Blackwell和Blackwell Ultra的一个重要功能是对NVFP4的硬件支持,这是Nvidia开发的一种四位独特浮点格式,并直接在芯片中实现。

NVFP4用于我们在DeepSea Car 1、llama 70B、llama 8B上的所有Blackwell系列提交。其理念是这些低精度数据格式有助于提高性能和能源效率,同时确保它们在实践中提供性能,并在确保响应的同时需要整个堆栈的创新。因此,我们实现了这种NVFP4格式,对其进行了加速,并且与其他行业一样,我们也支持Blackwell和Blackwell Ultra芯片支持的其他行业广泛使用的4位浮点格式,最后支持训练和推理堆栈。因此,我们继续与社区密切合作,将NVFP4加速引入更多模型,Harsh将在他的演讲部分进一步介绍。

我在这里展示的基本上是Nvidia GB300 NVL72如何通过降低成本使人工智能推理民主化。因此,如果你看一个使用DeepSea Carbon模型进行高交互性的例子(这是用于帕累托分析的),你可以获得10倍多的响应,即每秒更多的令牌,或者你可以获得5倍更快的答案。因此,与Hopper相比,运行像DeepSea这样的模型时,Nvidia GP300 NVL72将超级计算机CI工厂的输出提高了50倍。这基本上意味着,在Hopper上需要1.5分钟才能回答的问题,现在包括思考时间在内不到10秒。

这就是GP300 NVL72的价值。接下来,Nvidia正在铺平道路,继续以一年的节奏创新,为千兆瓦人工智能工厂铺平道路。我们在2023-2024年期间早些时候推出了Blackwell和Blackwell Ultra,最近在2026年国际消费电子展(CES 2026)上推出了Rubin平台。Rubin是Blackwell的继任者,我们最近推出了这个平台,我们将继续以每年的节奏进行创新。为了让你快速了解Rubin,Rubin平台基本上有六个芯片,涵盖CPU、GPU、横向扩展网络、纵向扩展网络和存储,你在这里看到的所有这六个芯片。

这些芯片进入模块,用于构建整个人工智能超级计算机。所有六个芯片都已从晶圆厂返回。我们一直在验证整个平台,直至Vera Rubin的完整NVL 72机架。合作伙伴已经开始运行他们的下一代人工智能模型,生态系统正在为Rubin的推出做准备。深入了解Rubin的技术突破。Rubin平台具有第六代MA Link横向扩展网络,GPU到GPU通信的带宽为3.6太字节/秒。我们有新的Vera CPU,它基于Olympus Core定制ARM内核,Ruben GPU具有50个NVFP4千万亿次/秒的Transformer引擎,第三代机密计算,在Vera和Rubin上都有完整的可信执行环境,最后是第二代RAS引擎,用于零停机时间、自我测试和健康检查。

现在让我们谈谈横向扩展网络。横向扩展网络使所有GPU能够相互通信,以进行人工智能训练和其他大规模人工智能工作负载。可以把这看作是不同机架上的GPU如何相互通信以促进通信。ConnectX9 SuperNet每个GPU提供1.6太字节/秒的RDMA带宽,并针对峰值人工智能工作负载效率进行了优化。它提供了完全软件定义的可编程加速数据路径,支持用于人工智能训练和推理的优化网络协议。另一方面,我们还有Bluefield 4,这是一个由Doka驱动的开放式可编程数据和存储处理平台。

它集成了ConnectX9 Supernic以及64核Nvidia Grace CPU,基本上卸载了所有网络、存储和安全任务。因此,计算托盘完全专注于其人工智能训练或推理任务。Bluefield 4提供了其前身2倍的带宽、6倍的计算能力和3倍的内存带宽。此外,Bluefield现在完全集成到Nvidia AI Enterprise工厂验证设计中,实现核心基础设施加速和更强的安全性,已被广泛的合作伙伴生态系统采用,包括红帽、帕洛阿尔托网络、飞塔等。

总结一下,你很快就会看到这个新的Vera Rubin VL72机架,它本质上创建了一个单一的220万亿晶体管机架级处理器,提供3.6百亿亿次/秒的人工智能推理性能。它有75太字节的快速内存以及幻灯片上的所有这些新规格,我就不一一细说了,其每秒可读取3千万亿个模型参数。这些都是Vera Rubin VL72的性能优势。我还想谈谈这个新平台的运营优势。

这是Nvidia的第三代全机架设计。这种设计在正常运行时间、弹性和可维护性方面有所改进。这是完全模块化、无软管、无风扇、无电缆的设计,组装时间和可维护性提高了18倍。开放式交换托盘还具有零停机维护和容错能力,允许机架在部分填充时保持运行。我之前提到的第二代RAS引擎提供非侵入性GPU诊断,无需将机架离线。Vera CPU还具有可更换的SoCam内存,以提高可维护性并最大限度地提高人工智能工厂的正常运行时间。所有这些功能都增加了系统正常运行时间和良好的端口,进一步降低了训练和推理成本,我们对这个平台能带来什么以及客户将如何使用它来构建下一代人工智能模型感到非常兴奋。

说完这些,我把发言权交给Harsh进行演示的下一部分。Harsh。

发言人:Harsh Banwait

现在轮到你了。太棒了。谢谢你,Kirti。继续性能这个主题,我想从CoreWeave的角度补充一下。CoreWeave一直积极参与MLPERF基准测试以及我们自己针对Blackwell和Blackwell Ultra的独立基准测试。去年,在MLPerf 5.0中,我们提交了当时最大规模的Nvidia Blackwell基准测试,这是我们与Nvidia以及IBM一起使用2500个GPU进行的运行。在那个时候,这是任何云提供商进行的最大规模的运行。而且在当时,这不仅仅是规模的问题。

同样重要的是,我们看到从512个GPU扩展到2500个GPU时,扩展效率约为91%。这对你意味着,如果你将集群规模扩大一倍或四倍,你不会因此而损失性能。我们也是第一家在推理基准测试中提交GB200 NVL72结果的云提供商,与上一代Hopper GPU相比,我们看到性能提高了约3倍。因此,对于相同的GPU,你在每秒令牌数方面获得了3倍的输出。我们在Blackwell Ultra上也延续了这一主题,在MLPerf 5.1中,我们成为第一家提交GB300结果的云提供商。

与Blackwell本身相比,我们在FB4张量核心实验室中实现了50%的改进。因此,即使与Blackwell相比,我们也看到了50%的增长。当我们将Deep Seq作为模型,尝试将其与Hopper进行比较,并查看GB300与H100的吞吐量时,我们发现GB300的每秒令牌数比Hopper提高了近6.5倍。性能数字固然很棒,但对于严肃的大规模客户来说,信任和可预测性同样重要。这就是为什么我们很高兴地分享,CoreWeave的GB200 NVL72系统也获得了典范认证,这意味着我们是第一家在这个规模上获得GB200典范地位的提供商。

为了实现这一点,我们必须通过Nvidia的严格验证,在架构、性能、运营成熟度方面达到标准。通过这个过程,我们实际上比我们的一些基准数字高出了高达5%的模型浮点运算利用率。这是一个重要的信号,因为这意味着当你在我们的集群上运行时,你能够从这些GPU中榨取更多性能。除了性能之外,同样重要的是这些系统也经过了生产稳定性验证。因此,它们经过了大规模训练运行期间可预测的不间断性能测试。

因此,这不仅仅是你可以实现峰值性能的短暂爆发,而是经过大规模验证的大型、可预测的性能。那么我们是如何做到的呢?CoreWeave部署基于Blackwell和Blackwell Ultra的实例已有一年多了。我们从中获得了大量经验。当我们考虑Blackwell和Blackwell Ultra的大规模实施时,有几个关键考虑因素。正如Kirti所分享的,架构看起来非常不同,有很多好处,但作为提供商,我和我的团队最关心的三件事是:首先,很多这些组件,很多共享的支持组件现在都是智能且共享的。

因此,如果你考虑这些机架,像CDU、电源模块、NVLink交换机等东西现在在许多服务器之间共享。它们不再像风扇或NVLink交换机那样集成在单个服务器中,而是必须协同工作,以在机架为大规模训练运行或推理运行扩展时动态提供电力、动态冷却,并优雅地处理任何故障情况。这意味着与我们的合作伙伴如Nvidia和供应商密切合作,确保这些组件公开正确的API、正确的遥测数据,并且我们可以将其干净地集成到我们自己的产品和自动化中。

其次,液冷现在是常态。我想说,我们大多数(如果不是全部)较新的数据中心都是液冷的。我们与数据中心提供商就冷却设计与CDU供应商密切合作,以深入了解冷却性能。除此之外,我们构建了操作手册和运行手册,以便我们的团队确切知道如何在规模上监控、调整和修复冷却问题。最后,我们将用户体验放在首位。因此,仅仅推出这些尖端硬件是不够的。客户需要在各种Blackwell集群上进行配置、监控、调试和扩展工作负载的清晰体验。

我将在幻灯片中详细介绍所有这些内容,但我只是想与你分享一点,为客户启用这些实例从数据中心规划级别一直到用户体验级别。现在,我将从我们的角度带你了解在CoreWeave部署这些Grace Blackwell机架的过程。因此,一旦这些节点、这些机架物理到达数据中心,它们就开始作为我们任务控制平台的一部分进行集成。在过去的一年里,我们大力投资了一个名为Rack Lifecycle Controller的产品,你在这里看到的就是它,它将一个机架带入完整的旅程。

我们开始启动阶段,显然包括物理安装、电力输送检查,确保CDU和电源供应器为这些机架进行了验证。然后我们进入发现和节点级测试。因此,我们试图确保像NVLink和现场诊断确认每个GPU互连在用户看到硬件之前都能按预期运行。然后我们进行检查点并确保所有这些都正常。然后我们进入机架级测试和电源测试,我们在这些机架上运行高强度的HPC风格工作负载,以确保我们像客户测试它们一样使用和测试它们,以便它们在交付给客户之前做好生产准备。

如果在任何时候数据中心技术人员或车队运营工程师需要干预,这里会突出显示需要对机架采取行动查看某些内容。但我们已经自动化了整个过程,从物理硬件验证到机架级测试,一切都顺利进行。这就是我们能够以这种速度大规模部署这些机架的方式。接下来,假设机架已经配置并移交给客户。我们必须考虑用户体验会是什么样子。这就是我们投资支持我们Sunk产品的拓扑块插件的地方。

对于那些不熟悉的人来说,Sunk是Flowmark或Kubernetes,CoreWeave的产品,很多客户用于训练和推理。我们有一个新的拓扑块插件,确保他们可以以正确的方式利用这些节点及其NVLink连接。所以你在这里看到的是,每个NVL72机架被视为18个节点的块,共享一个NVLink域,Sunk生成的拓扑文件。当作业可以使用段来干净地打包或分散作业时,让Kik的作业在机架内运行,并且在需要时保留整个块。因此,对于用户,你只需请求节点,调度器在后台会尊重NVLink域,减少碎片化,保持通信本地化,以便大型分布式作业看到更一致和可预测的性能。

这也得到了这里的可观察性仪表板的支持,可以显示你是否在单个机架中有可用的节点和段,以便你可以观察并查看你的作业在哪里运行。在同一个NVLink域中,你在哪里有空间运行更多作业?当这些作业运行时,你也想监控你的基础设施的运行情况。这就是我们的Cabinet Visualizer和Cabinet Wrangler仪表板发挥作用的地方。这些仪表板让你可以在NVL 72规模查看机架,这样你就可以看到GPU、NVLink利用率是什么样子,GPU或节点的温度是什么样子,你可能需要注意哪里,而不仅仅是在机柜级别,因为我们的许多客户有数十、数百、数千个这样的机架。

因此,对他们来说,能够在大规模级别看到这一点非常重要,这就是Cabinet Wrangler的作用,你可以看到我的GPU调度数量是什么样子,我的高级别利用率是什么样子,各个机架在高级别上的表现如何?因此,它们一起为基础设施工程师和客户提供了整个集群的端到端视图,而不是试图逐个查看每个节点。最后,Kirti在今年早些时候的CES上谈到了Vera Rubin,CoreWeave已经宣布我们将是首批向客户提供基于Vera Rubin实例的云提供商之一。我们对今年下半年的这一旅程感到非常兴奋。

这只是在Grace Blackwell、Blackwell Ultra的所有优势基础上,带来了更好的性能、更好的运营管理,我们与Nvidia团队在Rubin平台上进行了深入合作。因此,如果你正在考虑多年的路线图,训练、服务甚至更大、更强大的模型,Rubin将成为下一波工厂的平台,我们很高兴在它上线时为客户带来这一平台。

发言人:Harsh Banwait

接下来,我想进入问答环节。我相信我们在本次网络研讨会过程中已经尝试回答了一些问题,我会挑选一些我们可以现场回答的问题。Katie,我可能会请你回答我看到的第一个问题。我看到的第一个问题是“除了只是更快的GPU之外,还有什么区别?”我假设这可能是关于Vera Rubin的,你能谈谈主要区别是什么吗?

发言人:Kirthi K. Devleker

好的。所以补充一下,Vera Rubin肯定不仅仅是更快的GPU,正如我之前提到的,你需要的不仅仅是GPU。你需要从CPU、DPU、网络交换机和网卡以及所有软件的整个堆栈协同工作,无论是人工智能训练还是推理,以提供最大性能,同时最小化总体拥有成本(TCO)。这样你的投资回报率(ROI)就会上升。

发言人:Harsh Banwait

是的。这是一个很棒的回答。另一个与Rubin相关的问题,但我认为这是针对我的。我们听到很多关于即将推出的Nvidia Ruby架构的消息。CoreWeave如何为这种过渡做准备?是的,我们构建的产品的一大优点是我们知道Rubin以及之后的几代将会出现,我们一直与Nvidia合作,了解它们的样子以及我谈到的所有事情。机架生命周期控制器、Cabinet Visualizer、Cabinet Wrangler,所有这些功能都将非常容易地过渡到更新的平台。因此,我们在准备产品时考虑了下一代的样子。

无论在此之后有什么新的架构变化,我们都会与Nvidia密切合作,了解情况,看看我们是否需要对当前产品进行迭代,或者是否需要开发新产品。但我对Rubin的到来以及我们为此做好的准备感到非常有信心。下一个问题是,机架级系统最适合哪些工作负载?AGX与GB200的理想用途是什么?Kirti,你想回答这个问题吗?

发言人:Kirthi K. Devleker

好的,当然。所以,显然,随着人工智能从预训练、训练后到推理的发展,机架级架构确实是客户能够从我们拥有的这些解决方案中获得最佳性能的旗舰产品。当你考虑大型模型,如数十亿或万亿参数模型时,机架级架构肯定有帮助,但关于机架级与AGX的问题,这里有很多细节。我的意思是,这不仅仅与模型有关,还与你的数据中心是什么样的以及你正在运行什么样的应用有关。

如果是AGX,主要适用于遗留应用,例如在x86上运行的应用。但还有冷却和其他与其他考虑因素相关的方面。因此,这不是一个简单的答案。再次强调,这取决于你拥有什么样的模型以及你的数据中心基础设施已经到位,以支持这种基础设施不断变化的需求。答案肯定会有所不同,但这里有很多细微差别。

发言人:Harsh Banwait

是的,这就是我可能要为CoreWeave做一个自私的宣传的地方,我谈到的所有事情。与数据中心提供商合作准备这种技术需要多年时间。因此,拥有这方面的专业知识、准备好的数据中心、运营专业知识,这对于机架级基础设施至关重要,这也是我认为我们脱颖而出的地方。所以如果你对此感兴趣,非常乐意与你交谈。我想下一个问题,Kirti,有点相关。让我尝试回答一下。有人问,对于一家不是在构建前沿模型,而是在构建智能体系统的企业来说,机架级基础设施是否理想?

我会说是的。Kirti谈到过,在某些时候存在明显的差异,即你无法使用或无法访问机架级基础设施。但根据我们所看到的,当你实际上可以将机架级基础设施用于像智能体系统这样的东西时,这些系统需要实时扩展,你在每秒令牌数或你希望获得的纯原始性能方面的输出,在你想要的效率水平上仍然会更好。因此,我们仍然认为,我们鼓励客户总是与我们进行概念验证,尝试不同的产品,找出最适合他们的。但在不了解这个工作负载的更多细节的情况下,我仍然会说,大多数应用程序在纯原始性能方面,特别是像需要高推理性能的智能体系统,仍然可以从机架级系统中受益。Ketu,对此有什么补充吗?

发言人:Kirthi K. Devleker

是的,我完全同意你的看法,Harsh。我认为你说得很对。是的,所以总结一下,这实际上取决于你正在服务什么样的应用程序,你需要应用程序具有什么样的响应能力,在提供这些模型方面的吞吐量是多少。所以,是的,这是一个多维度的问题。所以,再次强调,也许你想与你的提供商进行对话,看看你的应用程序和应用程序需求如何最适合可用的基础设施。是的,这肯定是一个更深入的对话。

发言人:Harsh Banwait

太棒了。好了,我要感谢我们的听众抽出时间。我要感谢你,Kirti,抽出时间。我们希望我们能够从双方分享一些对你有帮助的内容,当你考虑你需要什么样的基础设施、什么样的应用程序需求、你想选择什么样的提供商或技术时。如果还有其他问题,我们会在聊天中放一些链接,告诉你如何联系我们,但如果还有其他问题,请随时联系我们。

发言人:Kirthi K. Devleker

是的。感谢大家的参与,这是我的荣幸。谢谢Harsh今天邀请我。

发言人:Harsh Banwait

太棒了。