GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?
收藏者
0
被浏览
77

5 个回答

AngelKiss LV

发表于 4 天前

开源了一个A Datacenter Scale Distributed Inference Serving Framework,话说这个名字和dynamodb撞车了。
P/D 分离,GPU调度,KV Cache aware routing,更快的数据传输,kv cache offload。
kv cache offload目前支支持offload到cpu memory, 之后会支持ssd和网络存储。
还有一个NIXL库,通过简化的同步和批处理,简化源和目标抽象,来抽象数据传输。
仔细一看,还有个kv cache manager的design,看一看
有两个版本,V1,V2
V1类似一个原型,用来验证,提供简单的GET,PUT。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-1.jpg

index 其实类似一个元数据服务了。
V1之后要和NIXL集成,同时实现多个节点的KV 重用。还要添加GPU Direct Storage,促进GPU内存和SSD直接的数据传输。
V2还在并行开发,包含之前提到的所有大饼,是一个真正的跨实例,存储的分布式KV poll。也还是rust写的。
它提供了一些更细节的接口,不过这样上层接入就会更加“耦合”,定制化一些。不过Dynamo也是自己人写的,问题到也不大。
怎么听着都这么熟悉呢(,总感觉见过一个很像你的人
ai-dynamo/dynamo: A Datacenter Scale Distributed Inference Serving Framework
Built in Rust for performance and in Python for extensibility
Rewrite EVERYTHING in Rust?  
Write EVERYTHING in Rust!

璀璨千阳 LV

发表于 4 天前

展示/预告一系列新的硬件,不仅有去年提到并今年量产的GB300也就是Blackwell Ultra、还有2026年的Rubin,以及2027年两个Rubin拼起来的Rubin Ultra,此时拥有4个计算die,FP4算力达到了100P,并拥有1TB的HBM4e,如下是个人感觉比较关键的几张截图
注: 个人仅关注计算卡相关的内容。
<hr/>Blackwell Ultra


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-1.jpg

Blackwell Ultra(B300)相对Blackwell(B200)算力提升50%,FP4 Dense来到了15P,算力的巨大提升未知,应该离不开架构面积优化/良率提升/频率提升这几方面,官方只明确说了FP4算力提升50%!也许只是为了加速推理塞入了更多的FP4计算资源;
值得关注的是New Attention Instructions, 但官方好像并没有说是啥!!!

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-2.jpg

官网上为数不多的描述,估计增加了个attention相关的指令进行了加速,经评论区 @jpgas 提醒,应该是mufu相关指令,加速MHA的SoftMax用的,这个后续再仔细分析下。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-3.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-4.jpg

Blackwell相对Hopper tensor算力翻倍后,如果MUFU.EX2不做优化,那么MMA便掩盖不了Softmax的计算耗时了,因此做相关的优化也挺合理的。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-5.jpg

B300为了提升FP4的算力密度,继续拿高精度数制下手?毕竟B200就把FP64砍了一刀

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-6.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-7.jpg

DGEMM on Integer Matrix Multiplication Unit不过砍这一刀,可以通过FP16或者Int8给模拟出来,后续CUTLASS/cuBLAS应该会有对应的kernel。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-8.jpg


https://github.com/NVIDIA/cutlass/blob/main/examples/78_blackwell_emulated_bf16x9_gemm/78_blackwell_emulated_bf16x9_gemm.cu

目前CULTASS上有BF16x9模拟FP32的tensor的例子。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-9.jpg

B200上通过INT8模拟FP64的性能甚至比原生的FP64 tensor还要快.

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-10.jpg

随后对比官方数据

  • FP64 tensor以及cuda core基本给砍掉了,只剩原来的5/148,保留这点只为了兼容(感觉是在5个SM保留完整的FP64相关的算力?)
  • INT8 tensor也给砍掉只有B200的1/32,这时候应该可以采取FP16/TF32的方案模拟FP64;
  • 但FP4 With sparsity | without sparsity不是2倍的关系了,只增加了fp4 without sparsity,估计架构带宽受限(看来Blackwell初期架构设计L2 带宽给的还是挺足的),再多加也没用了,不知道后续Rubin如何取舍的

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-11.jpg

这里有一些点比较容易混淆,B300应该是GB300的次品,只有GB300里面的B300才有接近“完整版”的算力,最终达到15PF,命名不仔细梳理下是很容易混淆参数的。
Rubin


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-12.jpg

再来说说2026年的Rubin“期货”,单芯片从Blackwell Ultra的15PF dense FP4提升到了Rubin 50PF ”Sparse“ FP4,基本翻倍。另外估计初期的HBM4密度低,只有288GB,大概是12Hi,应该与GB300的 HBM3e密度相同,不过带宽来到了13TB/s,毕竟升级了HBM4。
值得注意的点是

  • NV没有引入新的数制,几年内FP4是推理的主流?数制带来的算力提升算是到头了?
  • 3.6EF的FP4已经是1.2EF的FP8的3倍!!!加速推理,FP8及更高精度的数制节省下来给FP4更多的面积?真是这样的话算力增长得肉眼可见的乏力
如下是一些个人猜测
完整版的Rubin应该具有224个SM,完整版的Blackwell Ultra仅有160个SM,比值是1.4,Dense FP4算力的比值约为1.67,1.4与1.67这两个比值的对比就很有趣了。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-13.jpg


https://en.wikipedia.org/wiki/CUDA

意味着至少FP4这个数制并没有保持每代FMA/SM/CLK翻倍的规律。再来看看FP8算力比值也是1.67,因此FP8这个数制也一样。
1.4是如何提升至1.67的

  • 频率?有可能,但有点难了;
  • 像Blackwell Ultra升级FP4算力那样,即使不翻倍也要尽可能塞入更多的FP4 FP8计算资源?
注:猜测的前提是Rubin仅有25PF Dense FP4,如不是这个数值那前面猜测全都是错的hhh。
Rubin Ultra


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-14.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-15.jpg

Rubin Ultra就是两个Rubin拼接而来,只不过有了1TB的HBM4e(不知道内存厂届时可以量产吗),另外NVL576听着吓人,其实只有144个Rubin Ultra Package。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-16.jpg

这个Rubin Ultra绘制的感觉有点问题,R300之间不用D2D吗?
参数汇总


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-17.jpg


https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/

semianalysis总结的参数表格作为小结,这个表格依然不完美,官方公布的Rubin没有明确说dense,那么一般就是sparse,不过总体来说表格制作的还是挺不错的。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-18.jpg

NVlink相关的目前关注不多,就不做过多评价了,看参数Lane Speed也要到头了。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-19.jpg

路线图更新,下一代费曼会带来何种惊喜呢。
<hr/>其他有趣的东西


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-20.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-21.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-22.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-23.jpg


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-24.jpg

其他还有些有趣的东西就不一一介绍了,自媒体都有相应的说明,感兴趣的同学可以看回放以及解说
GTC March 2025 Keynote with NVIDIA CEO Jensen Huang

时空猫的问答盒 LV

发表于 4 天前

主要还是当下热点:AI,芯片,机器人,整体来看,是把硬件、软件、生态的垄断起来。说说我们感兴趣的。
第一个Blackwell Ultra 芯片发布,Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%,约为15P FLOPS(基于低精度的四位浮点数格式FP4标准),内存上则搭载了业内最先进的HBM3E,从192GB升级到了288GB。与A100、H100等多款主要用在AI模型预训练的产品不同,英伟达此次明确定位Blackwell Ultra“专为AI模型推理打造”(AI-Reasoning)
第二个,看看数据:2024年全球前四超算运营商共采购130万片Hopper架构芯片。2025年,它们又购买了360万Blackwell芯片。还有重要一点,黄仁勋还提到预计 2028 年数据中心建设支出将达 1 万亿美元。
从整体内容和合作厂商看,NVDIA不只是造芯,黄仁勋画了个更大的饼,当然巨头需要做即这个领头羊,全球市场正在消化英伟达未来几年的利好。对于中国的IDC和算力资源建设,以及国产资源的跟进,是一个兴奋剂,当然也会是双韧剑。有稀缺,也有红利。
我们还是秉承自己的理念“整合了来自各地的不同IDC、运营商和云计算厂商的高性价比GPU资源,构建覆盖全国的“算力网络”,通过动态优化调度技术,将闲置算力高效匹配至需求端,大幅降低算力使用成本。”  
最后最后补充英伟达的架构命名规则:(来自网络)

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-1.jpg

中年大叔 LV

发表于 4 天前

这次,老黄的金句直接升级为「买得越多,赚得越多」。
全场精彩亮点如下:

  • Blackwell已全面投产,而且进展非常快,客户需求也非常大。这一切皆是因为AI拐点已至,训练推理AI/智能体系统对计算量的需求大大增加。
  • Blackwell NVL72结合Dynamo推理性能提升了40倍,相当于一座Hopper AI工厂的性能。
  • 英伟达未来三年路线图已公开,GPU每年一更:Blackwell Ultra预计2025年下半年上市,下一代Rubin 2026年问世。
  • 英伟达正在构建3个AI基础设施:云上AI基础设施,企业AI基础设施和机器人AI基础设施。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-1.jpg


英伟达预言:在未来,每个拥有工厂的公司将来都会有两个工厂,一个是用来制造产品的实体工厂,另一个是用于数学运算的AI工厂。为此,各类CUDA-X软件库已经准备好,引爆全行业的变革。
而这场革命的背后,就是英伟达的CUDA核心,以及为之配备的惊人算力。
AI芯片每年一更,下一代Rubin明年亮相

随着Blackwell GPU的全面发货,老黄也按照惯例发布了接下来几款新产品的路线图。
首先,是对训练和测试时推理能力进行大幅提升,并将在今年下半年问世的Blackwell Ultra。
根据英伟达官方博客介绍,Blackwell已经让DeepSeek-R1打破了推理性能的世界纪录。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-2.jpg


而与Blackwell相比,Blackwell Ultra芯片还有超强进化!
它的显存从192GB提升到了288GB。而GB300 NVL72的AI性能,则比NVIDIA GB200 NVL72高出1.5倍。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-3.jpg


接下来,是最为重磅的Vera Rubin,预计在2026年下半年发布。
这个命名致敬的是发现暗物质的天文学家Vera Rubin。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-4.jpg


Vera Rubin有两个部分,一个称为Vera的CPU和一个称为Rubin的新GPU。
两部分一同使用时,Rubin可以在推理时实现每秒50千万亿次浮点运算,比Blackwell速度高出一倍多。
显存方面,Rubin将升级为HBM4,容量仍然为288GB。
不过,Rubin的带宽将会有大幅升级,从原来的8TB/s提高到13TB/s,提高了1.6倍。
不仅如此,NVIDIA还会为Rubin扩展NVLink,将其吞吐量提升到260TB/s,直接翻倍!
机架间的全新CX9链路达到了28.8TB/s。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-5.jpg


不仅有标准版Rubin,老黄现场还推出了Rubin Ultra版本。
Rubin Ultra NVL576在FP4精度下进行推理任务时,性能达到了15 ExaFLOPS,在FP8精度下进行训练任务时,性能为5 ExaFLOPS。相比GB300 NVL72性能有14倍的提升。
配备HBM4e内存,带宽为4.6 PB/s,支持 NVLink 7,带宽为1.5 PB/s,较上一代提升12倍。
Rubin Ultra NVL576机架支持CX9,带宽为达到了115.2 TB/s,较上一代提升了8倍。
预计在2027年下半年推出。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-6.jpg


Blackwell NVLink72和Rubin NVLink 576尺寸最直观的对比,再一次证明了需要在scale up之前,先要完成scale out。



可以看到浮点运算能力,Hopper架构是1倍提升,Blackwell 68倍提升,到了Rubin直接跃升至900倍。
另外总拥有成本(TCO),也在随着架构迭代大幅降低。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-7.jpg


那么,英伟达是如何实现scale up?
主要是通过网络InfiniBand和Spectrum X。后者具备了低延迟和拥塞控制特性,并且成功scale up有史以来最大的单GPU集群。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-8.jpg


不仅如此,英伟达还希望在Rubin时间框架内,将GPU的数量扩展至数十万个。而这一目标实现的主要挑战在于,大规模连接的问题。
值得一提的是,老黄官宣了英伟达首个共封装硅光子系统,也是世界上第一个每秒1.6T的CPO。
它基于一种「微环谐振器调制器」的技术(micro ring resonator modulator),并使用了台积电工艺技术构建。


现在,具备了将硅光子学与共封装的结合,无需使用收发器,直接接入光线,并将其集成到512径基数的交换机中。
这样,便能够轻轻动动扩展至数十万,甚至百万GPU规模。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-9.jpg


至于再下一代,则是将于2028年上市的Feynman(费曼)。
该命名致敬了美国著名理论物理学家Richard Feynman。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-10.jpg


桌面级「黄金超算」,AI算力20000 TFLOPS

苹果这个月刚刚发布能跑6000亿参数的Mac Studio,反身又要被英伟达超越了。
今天,老黄正式推出Blackwell RTX PRO工作站和服务器系列,专为开发者、创意工作者、数据科学家构建和协作提供全方位的AI支持。
具体来说,它包括了数据中心GPU、桌面GPU,以及笔记本GPU。
这些GPU能够提供卓越的性能、效率,解锁生成式AI、智能体AI和物理AI的巨大潜力。
RTX PRO 6000 Blackwell采用了英伟达流式多处理器提供高达1.5倍吞吐量,第五代Tensor Core支持高达每秒4000万亿次AI运算,第四代RT Core性能提升高达前一代的2倍。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-11.jpg


不仅如此,老黄还带来了两款由Blackwell驱动的DGX个人桌面AI超级计算机。
一个是DGX Spark(原名Project DIGITS),另一个是DGX Station。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-12.jpg


老黄称,「AI已经改变了计算堆栈的每一层,理所当然就会出新一类的计算机——专为AI原生开发者设计,并运行AI原生程序」。
这两款桌面超级计算机,便是这样的存在。
DGX Spark可以称得上,世界上最小的AI超级计算机,配备128GB内存。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-13.jpg


核心是GB10 Grace Blackwell超级芯片,能够提供每秒高达1000万亿次操作的AI计算能力,可以用于微调和推理模型。
DGX Station则将数据中心级别的性能,带到每个人桌面用于AI开发。
作为首款采用GB300 Grace Blackwell Ultra桌面超级芯片构建的系统,DGX Station配备了高达784GB的统一内存,以加速大规模训练和推理工作负载。
如下是Blackwell驱动下,所有英伟达DGX家族。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-14.jpg


Scaling Law没撞墙,2028年数据中心将达一万亿!

开场时,老黄手举GeForce 5090,和4090做了对比,它的体积小了30%,性能的提升却难以置信。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-15.jpg


GeForce将CUDA带给了全世界,而CUDA开启了AI,而AI又反过来改变了计算机图形学。
如今大火的则是智能体AI,它可以感知、理解、推理,还能计划行动,使用工具,自己访问网站去学习。
而接下来,就是物理AI,它将理解物理世界,理解摩擦、惯性、因果关系。它使机器人技术成为可能。
而这次大会上,Agentic AI和Physical AI将是全程的核心。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-16.jpg


接下来,老黄重提了Scaling Law。
这涉及了三大问题:如何解决数据?如何训练模型?如何扩展?
预训练要解决数据问题,后训练解决的是human-in-the-loop问题,而测试时Scaling,则提升了AI的推理。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-17.jpg


老黄表示,去年整个世界都搞错了,Scaling并没有撞墙!
从GPT开始,到如今的推理AI,它不再是仅仅预测下一个token,而是生成100多倍的token。
这样,推理计算量就更高了,计算速度必须提高10倍,如今需要的计算量比去年这个时候我们认为需要的多出100倍。
那么,数据应该从哪里来?答案就是强化学习。
通过强化学习,我们可以生成大量token,这就涉及到了合成数据,给整个行业带来巨大的计算挑战。
比较一下Hopper的峰值年份和Blackwell的第一年,会发现:AI正处于转折点。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-18.jpg


Blackwell发货才一年,我们就见证了全球AI基础设施的惊人增长。仅在2024年,全球TOP 4的云服务商买进的Hopper架构芯片就达到130万块。
老黄表示,未来数据中心建设将达到一万亿美元的规模,并且他确信,这个时间很快了!
根据预测,到2028年就能达到这个规模。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-19.jpg


如今,通用计算已经走到了尽头,我们已经到达加速计算临界点,需要一种新的计算方法。
世界正在经历一个平台转移,从在通用计算机上运行的手写软件,转向在加速器和GPU上运行的机器学习软件。
过去,我们编写软件并在计算机上运行。未来,计算机将为软件生成token。
计算机已经成为生成token的工具,而不仅仅是文件的检索工具,老黄称之为「AI工厂」。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-20.jpg


上面这张幻灯片,可以说是GTC最核心内容的结晶。
英伟达通过由Grace Hopper和Grace Blackwell架构支持的各种CUDA-X库,为每一个科学领域提供了加速框架。
比如,解决涉及稀疏矩阵的大型工程仿真问题的cuDSS,模拟极其复杂的量子系统的cuQuantum等等。
而这些,仅仅是使加速计算成为可能的库的样本。
如今,通过英伟达的900多个CUDA-X库和AI模型,所有人都可以加速科学研究,重塑行业,赋予机器视觉、学习和推理能力。
老黄表示,从业三十年中,最令自己感动的一件事,就是一位科学家对自己说:「Jensen,因为你的工作,我可以在有生之年完成我的毕生事业」。
如今,每年有1000亿美元的资本投入无线网络和用于通信的数据中。
加速计算的趋势已经无法阻挡,AI将进入每个行业,比如改变无线电信号。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-21.jpg


既要大量token思考,又要快速生成

如今,英伟达已经完成了计算机架构的基本转型。
大约三年前,他们就展示过Grace Hopper(Ranger系统),但它太大了,需要解决规模扩展的问题。
当时的想法是,使用大量商用计算机,将它们连接成一个大型网络,然而,这种方式会消耗太多电力和能力,根本无法实现深度学习。
而HGX系统架构,彻底解决了纵向扩展的问题。


它包含8个GPU,通过MVLink 8连接到CPU架上,然后再通过PCI Express进行连接,很多这样的设备再用InfiniBand连接起来。
这,就英伟达在向外扩展之前所能达到的最大规模了。
然后,他们又做出了世界上性能最高的交换机——NVLink交换机,使得每个GPU能够同时以全带宽与其他所有GPU通信。
同时,利用液冷将计算节点也压缩到1u的托盘中,从而为行业带来了巨变。


从此,集成NVLink转向分散式NVLink,从空气冷却转变为液冷,从每台计算机约6万个组件到每个机架60万组件,120千瓦功率,全液冷设置。
于是,一个机架里,就有了一个Exaflops级别的超算。


英伟达的目标,就是构建这块芯片,此前没有任何一种工艺能实现。
它包含130万亿个晶体管,其中20万亿用于计算,而解决方法,就是将其拆分到Grace Blackwell NVLink 72机架中。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-22.jpg


最终的结果,就是英伟达实现了Scaling,可以说,这是全世界实现过最极端的Scaling。
这个过程中的计算量,可能已经达到了内存带宽每秒570TB。而这台机器,已经达到了每秒百万万亿次浮点运算。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-23.jpg


实际上,推理Scaling是一个「终极计算」问题。
推理是工厂生成token的过程,只有具备极高性能,才会提升服务质量,以及收入和盈利的能力。
生成的token越多,AI就越智能。但问题是,吞吐时间太长且速率慢,客户也不愿意买账。
因此,在计算工厂中,响应时间和吞吐量中间,存在着基本的矛盾关系。
老黄展示这张图中,x轴代表了生成的token,y轴代表着每秒token吞吐效率,理想情况下,图中黄色曲线应该是一个方形,即在工厂能力极限之内,非常快速生成token。
然而, 现实没有哪个工厂可以做到这点。
曲线才是最符合现实的一种,工厂的目标是最大化曲线下方的面积,越是向外推,代表着建造的工厂越优秀。
另一个维度,则需要巨大的带宽、最大的浮点运算能力。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-24.jpg


现场,老黄展示了一个传统大模型和推理模型,基于同一段提示通过思考token解决问题的关键区别。
一边是Llama 3.3 70B,另一边是DeepSeek R1。
这段提示词的大意是要求在遵循传统、拍照角度和家族争端等约束条件下,在婚礼宴会上安排宾客入座。
I need to seat 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she's on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?
结果,传统LLM只需不到500个token就能快速回答,但结果是错误的。
而推理模型则需要超过8000个token来推理这个比较简单的问题。
推理模型需要消耗超过20倍的token量完成问题,计算量也随之增加了150倍。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-25.jpg


而下一代模型,参数可能会达到万亿级别。
解决方案,就是将这些万亿级的参数分布在多个GPU上,通过管线并行、张量并行和专家并行的组合来解决。
8000多个token,就意味着数万亿字节的信息被输入到GPU中,逐个生成token。
这,就是我们需要NVlink到根本原因——它让我们能把这些GPU组成一个巨大的GPU,实现规模的终极Scaling。
终极摩尔定律:买越多,赚越多

接下来,黄仁勋发布了NVIDIA Dynamo,这是一款开源推理软件,旨在以最低成本和最高效率加速和扩展AI工厂中的推理模型。
他将其称之为「AI工厂的操作系统」。
「正如发电机(Dynamo)推动了工业革命,NVIDIA Dynamo将会革新AI工厂」。
随着AI推理变得越来越主流,AI模型在每次提示下都会生成成千上万的token来进行「思考」。
如何在提高推理性能的同时,还能不断降低推理成本?
这便是NVIDIA Dynamo推出的意义。
NVIDIA Dynamo是NVIDIA Triton Inference Server的下一代产品,它能协调并加速数千个GPU之间的推理通信,并使用分布式服务把LLM的处理和生成阶段分配到不同的GPU上。
这样每个阶段都能根据自己的需求单独优化,确保GPU资源被充分利用。
在同样的GPU数量下,Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍。
在GB200 NVL72集群上运行DeepSeek-R1模型时,NVIDIA Dynamo的智能推理优化还能让每个GPU生成的token数量提升超过30倍!
为了实现这些推理性能的提升,NVIDIA Dynamo能根据请求量和类型的变化,动态添加、移除或重新分配GPU,还能在大型集群中精准找到特定GPU来减少响应计算和路由查询。
它还能把推理数据卸载到更便宜的内存和存储设备上,需要时再快速取回,尽量降低推理成本。
老黄在现场宣布NVIDIA Dynamo完全开源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-26.jpg


下图中,横轴代表为用户每秒处理的token数量,纵轴是工厂每秒处理的token吞吐量。
比如,Hopper平台用8个GPU连上InfiniBand,可以为每个用户提供100 token/秒的处理速度。
老黄开始算了起来,「有了这个坐标,我们就可以用token/秒和能耗来衡量收益了。」
比如,250万token/秒按每百万token 10美元算,就能带来每秒2500美元的收入;而如果降到10万token/秒,那也就是250美元。
而一年有3000多万秒,这直接关系到1兆瓦数据中心的年收入。
所以,目标是找到token处理速度和AI智能之间的平衡点:速度快能做聪明AI,客户愿意多付钱,但越聪明,批量生产就越难。
相比之下,新的Blackwell架构比Hopper强多了,尤其在能耗固定的情况下,性能提升了25倍,甚至在推理模型上直接比Hopper高40倍。
更厉害的是,Blackwell用MVLink 8技术加速,还引入了4位浮点数优化,减少能耗提升效率。
老黄表示,未来数据中心都会受限于电力,收入也跟电力挂钩,所以能效高的架构最重要。
接下来,Blackwell将扩展到MVLink 72,再加上Dynamo软件,效果将更上一层楼。
老黄表示下图里的彩虹线非常惊艳,展示了各种配置下的最佳表现。
从顶部3000批大小到底部的2批大小,配置灵活应变。
这些优化让数据中心能适应不同工作负载,证明了架构的重要性。
说到这,老黄举了个例子,在推理模型上,Blackwell的性能直接比Hopper高了40倍,真的很了不起!
「一旦Blackwell开始大规模出货,Hopper可能连送人都没人要了。」老黄在现场打趣道。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-27.jpg


黄仁勋说,销售团队听到他这话估计要急了,担心影响会Hopper的销量。
但老黄认为,技术进步太快,工作负载又重,像AI工厂这样的大型项目,最好投资在最新版本的技术上,比如Blackwell,这样才能跟上潮流,避免落后。
接着,他拿出一个具体的例子来对比:一个100兆瓦的AI工厂用Hopper技术需要45000个芯片、1400个机架,每秒能产出3亿个token。
而同样的工厂如果用Blackwell,虽然芯片数量减少,但效率更高,整体性能更强。
老黄再次调侃道,销售团队可能觉得这是在「少卖货」,但实际上还是之前那个观点,「 the more you buy, the more you save」(买得越多,省得越多)。
甚至,现在还要更进一步:「the more you buy, the more you make」(买得越多,赚得越多)。



首个通用机器人模型开源,规模仅2B
正如老黄所言,Physical AI也是今年行业的重点。
他表示,「预计本世纪末,世界劳动力短缺人数将超过5000万,而通用机器人的时代已经到来」。
具身智能也遵循着三大Scaling Law。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-28.jpg


数据短缺成为Scaling一大难题,英伟达Omniverse和Cosmos能够同时为具身智能的训练,生成大量多样化、高质量的数据。
然后开发者利用Isaac Lab通过增强数据集后训练机器人策略,并通过模仿学习让机器人通过克隆行为来学习新技能,或者通过试错和强化学习AI反馈进行学习。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-29.jpg


这一次,英伟达正式官宣了世界首个开源、完全可定制的通用人形机器人模型——GROOT N1。
这款模型的设计从人类认知过程汲取灵感,采用了「双系统架构」,分别可以进行快思考和慢思考。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-30.jpg


技术报告:https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf

在视觉语言模型驱动下,慢思考系统(System 2)能够对环境和指令进行推理,然后规划出正确的行动。
快思考系统(System 1),可以将上述计划转化为机器人精确、连续的动作,包括操纵物体、执行多步骤序列的能力。
值得一提的是,System 1是基于人类演示数据和Omniverse生成大量的合成数据进行训练的。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-31.jpg


GROOT N1可以轻松在上见任务中进行泛化,或执行需要长上下文和多种通用技能组合的多步骤任务。
比如,抓取、用一只手臂/两只手臂移动物体,以及在两个手臂之间传递物品。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-32.jpg


此外,英伟达还与DeepMind、迪士尼研究一起开发下一代开源的Newton物理引擎,能够让机器人学习如何更精确处理复杂任务。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-33.jpg


随后,以星球大战BDX机器人为灵感,装上Newton引擎的Blue上台和老黄来了一波有趣的互动。


GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-34.jpg


最后,老黄预言:在未来,机器人领域将成为最大的产业。
毫无疑问,英伟达又一次成为了赢家。

断舍离 LV

发表于 4 天前

AI部分,老黄反复提到了两个概念,一个是agentic AI,一个是physical AI。
前者对应了这段时间非常火的各种AI Agent,MCP协议等等,后者对应了机器人,具身智能,但是千言万语汇成一张图,就是这个。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注?-1.jpg

他把未来的计算机系统抽象成一个token factory,不再用软件这种东西来定义计算机系统,而是假设所有的操作都是由自然语言构成的Prompt,来让电脑作为AI来理解,然后消耗token来推理来应用各式各样的工作来完成操作。
然后这种结构就需要用到reasonling LLM,相比起传统LLM,它需要更多的Token,因为它会把问题进行拆分,推理,一致性检测,回溯,老黄展示了一个案例,对于一个简单问题,传统LLM消耗400多个token,DeepSeek R1用了8000多个,20多倍的差距。
而agentic AI需要的更多,因为它需要调用更多的应用,进行更多的推理,以及需要更多的context记忆,这种组合下面,token消耗量很轻松的会达到现在的100倍及以上。
physical AI的原理也如出一辙,总之,token不够用。
那就很容易得出结论,token是由GPU产生的,GPU是Nvidia造的,说来说去,老黄的意思还是Nvidia才是未来一切的发电机。
他都把计算机系统抽象成Token生产线了,那就是摆明了还是在强调英伟达的独特性。
不过总的思路肯定是没问题的,不过从细节上来说,未来token肯定是造的越快越好,但问题是从DeepSeek R1的表现来看,Nvidia对于自家的产品并不是100%的理解。
在我的理解下,未来一定是软硬件一体化的世界,只有100%适配自己硬件的软件才是最终的王者,没人能卷的过它。

您需要登录后才可以回帖 登录 | 立即注册