GTC 2025 黄仁勋主题演讲有哪些亮点值得关注？

发表于 2025-4-1 09:19:23

开源了一个A Datacenter Scale Distributed Inference Serving Framework，话说这个名字和dynamodb撞车了。
P/D 分离，GPU调度，KV Cache aware routing，更快的数据传输，kv cache offload。
kv cache offload目前支支持offload到cpu memory, 之后会支持ssd和网络存储。
还有一个NIXL库，通过简化的同步和批处理，简化源和目标抽象，来抽象数据传输。
仔细一看，还有个kv cache manager的design，看一看
有两个版本，V1,V2
V1类似一个原型，用来验证，提供简单的GET,PUT。

index 其实类似一个元数据服务了。
V1之后要和NIXL集成，同时实现多个节点的KV 重用。还要添加GPU Direct Storage，促进GPU内存和SSD直接的数据传输。
V2还在并行开发，包含之前提到的所有大饼，是一个真正的跨实例，存储的分布式KV poll。也还是rust写的。
它提供了一些更细节的接口，不过这样上层接入就会更加“耦合”，定制化一些。不过Dynamo也是自己人写的，问题到也不大。
怎么听着都这么熟悉呢(,总感觉见过一个很像你的人
ai-dynamo/dynamo: A Datacenter Scale Distributed Inference Serving Framework

Built in Rust for performance and in Python for extensibility

Rewrite EVERYTHING in Rust?
Write EVERYTHING in Rust!

发表于 2025-4-1 09:34:15

展示/预告一系列新的硬件，不仅有去年提到并今年量产的GB300也就是Blackwell Ultra、还有2026年的Rubin，以及2027年两个Rubin拼起来的Rubin Ultra，此时拥有4个计算die，FP4算力达到了100P，并拥有1TB的HBM4e，如下是个人感觉比较关键的几张截图
注: 个人仅关注计算卡相关的内容。
<hr/>Blackwell Ultra

Blackwell Ultra（B300）相对Blackwell（B200）算力提升50%，FP4 Dense来到了15P，算力的巨大提升未知，应该离不开架构面积优化/良率提升/频率提升这几方面，官方只明确说了FP4算力提升50%！也许只是为了加速推理塞入了更多的FP4计算资源；
值得关注的是New Attention Instructions, 但官方好像并没有说是啥！！！

官网上为数不多的描述，估计增加了个attention相关的指令进行了加速，经评论区 @jpgas 提醒，应该是mufu相关指令，加速MHA的SoftMax用的，这个后续再仔细分析下。

Blackwell相对Hopper tensor算力翻倍后，如果MUFU.EX2不做优化，那么MMA便掩盖不了Softmax的计算耗时了，因此做相关的优化也挺合理的。

B300为了提升FP4的算力密度，继续拿高精度数制下手？毕竟B200就把FP64砍了一刀

DGEMM on Integer Matrix Multiplication Unit不过砍这一刀，可以通过FP16或者Int8给模拟出来，后续CUTLASS/cuBLAS应该会有对应的kernel。

https://github.com/NVIDIA/cutlass/blob/main/examples/78_blackwell_emulated_bf16x9_gemm/78_blackwell_emulated_bf16x9_gemm.cu

目前CULTASS上有BF16x9模拟FP32的tensor的例子。

B200上通过INT8模拟FP64的性能甚至比原生的FP64 tensor还要快.

随后对比官方数据

FP64 tensor以及cuda core基本给砍掉了，只剩原来的5/148，保留这点只为了兼容（感觉是在5个SM保留完整的FP64相关的算力？）
INT8 tensor也给砍掉只有B200的1/32，这时候应该可以采取FP16/TF32的方案模拟FP64;
但FP4 With sparsity | without sparsity不是2倍的关系了，只增加了fp4 without sparsity，估计架构带宽受限（看来Blackwell初期架构设计L2 带宽给的还是挺足的），再多加也没用了，不知道后续Rubin如何取舍的

这里有一些点比较容易混淆，B300应该是GB300的次品，只有GB300里面的B300才有接近“完整版”的算力，最终达到15PF，命名不仔细梳理下是很容易混淆参数的。
Rubin

再来说说2026年的Rubin“期货”，单芯片从Blackwell Ultra的15PF dense FP4提升到了Rubin 50PF ”Sparse“ FP4，基本翻倍。另外估计初期的HBM4密度低，只有288GB，大概是12Hi，应该与GB300的 HBM3e密度相同，不过带宽来到了13TB/s，毕竟升级了HBM4。
值得注意的点是

NV没有引入新的数制，几年内FP4是推理的主流？数制带来的算力提升算是到头了？
3.6EF的FP4已经是1.2EF的FP8的3倍！！！加速推理，FP8及更高精度的数制节省下来给FP4更多的面积？真是这样的话算力增长得肉眼可见的乏力

如下是一些个人猜测
完整版的Rubin应该具有224个SM，完整版的Blackwell Ultra仅有160个SM，比值是1.4，Dense FP4算力的比值约为1.67，1.4与1.67这两个比值的对比就很有趣了。

https://en.wikipedia.org/wiki/CUDA

意味着至少FP4这个数制并没有保持每代FMA/SM/CLK翻倍的规律。再来看看FP8算力比值也是1.67，因此FP8这个数制也一样。
1.4是如何提升至1.67的

频率？有可能，但有点难了；
像Blackwell Ultra升级FP4算力那样，即使不翻倍也要尽可能塞入更多的FP4 FP8计算资源？

注：猜测的前提是Rubin仅有25PF Dense FP4，如不是这个数值那前面猜测全都是错的hhh。
Rubin Ultra

Rubin Ultra就是两个Rubin拼接而来，只不过有了1TB的HBM4e（不知道内存厂届时可以量产吗），另外NVL576听着吓人，其实只有144个Rubin Ultra Package。

这个Rubin Ultra绘制的感觉有点问题，R300之间不用D2D吗？
参数汇总

https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/

semianalysis总结的参数表格作为小结，这个表格依然不完美，官方公布的Rubin没有明确说dense，那么一般就是sparse，不过总体来说表格制作的还是挺不错的。

NVlink相关的目前关注不多，就不做过多评价了，看参数Lane Speed也要到头了。

路线图更新，下一代费曼会带来何种惊喜呢。
<hr/>其他有趣的东西

其他还有些有趣的东西就不一一介绍了，自媒体都有相应的说明，感兴趣的同学可以看回放以及解说
GTC March 2025 Keynote with NVIDIA CEO Jensen Huang

发表于 2025-4-1 09:47:24

主要还是当下热点：AI，芯片，机器人，整体来看，是把硬件、软件、生态的垄断起来。说说我们感兴趣的。
第一个Blackwell Ultra 芯片发布，Blackwell Ultra GPU相比于上一代B200GPU性能提升了50%，约为15P FLOPS（基于低精度的四位浮点数格式FP4标准），内存上则搭载了业内最先进的HBM3E，从192GB升级到了288GB。与A100、H100等多款主要用在AI模型预训练的产品不同，英伟达此次明确定位Blackwell Ultra“专为AI模型推理打造”（AI-Reasoning）
第二个，看看数据：2024年全球前四超算运营商共采购130万片Hopper架构芯片。2025年，它们又购买了360万Blackwell芯片。还有重要一点，黄仁勋还提到预计 2028 年数据中心建设支出将达 1 万亿美元。
从整体内容和合作厂商看，NVDIA不只是造芯，黄仁勋画了个更大的饼，当然巨头需要做即这个领头羊，全球市场正在消化英伟达未来几年的利好。对于中国的IDC和算力资源建设，以及国产资源的跟进，是一个兴奋剂，当然也会是双韧剑。有稀缺，也有红利。
我们还是秉承自己的理念“整合了来自各地的不同IDC、运营商和云计算厂商的高性价比GPU资源，构建覆盖全国的“算力网络”，通过动态优化调度技术，将闲置算力高效匹配至需求端，大幅降低算力使用成本。”
最后最后补充英伟达的架构命名规则：（来自网络）

发表于 2025-4-1 09:58:39

这次，老黄的金句直接升级为「买得越多，赚得越多」。
全场精彩亮点如下：

Blackwell已全面投产，而且进展非常快，客户需求也非常大。这一切皆是因为AI拐点已至，训练推理AI/智能体系统对计算量的需求大大增加。
Blackwell NVL72结合Dynamo推理性能提升了40倍，相当于一座Hopper AI工厂的性能。
英伟达未来三年路线图已公开，GPU每年一更：Blackwell Ultra预计2025年下半年上市，下一代Rubin 2026年问世。
英伟达正在构建3个AI基础设施：云上AI基础设施，企业AI基础设施和机器人AI基础设施。

英伟达预言：在未来，每个拥有工厂的公司将来都会有两个工厂，一个是用来制造产品的实体工厂，另一个是用于数学运算的AI工厂。为此，各类CUDA-X软件库已经准备好，引爆全行业的变革。
而这场革命的背后，就是英伟达的CUDA核心，以及为之配备的惊人算力。
AI芯片每年一更，下一代Rubin明年亮相

随着Blackwell GPU的全面发货，老黄也按照惯例发布了接下来几款新产品的路线图。
首先，是对训练和测试时推理能力进行大幅提升，并将在今年下半年问世的Blackwell Ultra。
根据英伟达官方博客介绍，Blackwell已经让DeepSeek-R1打破了推理性能的世界纪录。

而与Blackwell相比，Blackwell Ultra芯片还有超强进化！
它的显存从192GB提升到了288GB。而GB300 NVL72的AI性能，则比NVIDIA GB200 NVL72高出1.5倍。

接下来，是最为重磅的Vera Rubin，预计在2026年下半年发布。
这个命名致敬的是发现暗物质的天文学家Vera Rubin。

Vera Rubin有两个部分，一个称为Vera的CPU和一个称为Rubin的新GPU。
两部分一同使用时，Rubin可以在推理时实现每秒50千万亿次浮点运算，比Blackwell速度高出一倍多。
显存方面，Rubin将升级为HBM4，容量仍然为288GB。
不过，Rubin的带宽将会有大幅升级，从原来的8TB/s提高到13TB/s，提高了1.6倍。
不仅如此，NVIDIA还会为Rubin扩展NVLink，将其吞吐量提升到260TB/s，直接翻倍！
机架间的全新CX9链路达到了28.8TB/s。

不仅有标准版Rubin，老黄现场还推出了Rubin Ultra版本。
Rubin Ultra NVL576在FP4精度下进行推理任务时，性能达到了15 ExaFLOPS，在FP8精度下进行训练任务时，性能为5 ExaFLOPS。相比GB300 NVL72性能有14倍的提升。
配备HBM4e内存，带宽为4.6 PB/s，支持 NVLink 7，带宽为1.5 PB/s，较上一代提升12倍。
Rubin Ultra NVL576机架支持CX9，带宽为达到了115.2 TB/s，较上一代提升了8倍。
预计在2027年下半年推出。

Blackwell NVLink72和Rubin NVLink 576尺寸最直观的对比，再一次证明了需要在scale up之前，先要完成scale out。

可以看到浮点运算能力，Hopper架构是1倍提升，Blackwell 68倍提升，到了Rubin直接跃升至900倍。
另外总拥有成本（TCO），也在随着架构迭代大幅降低。

那么，英伟达是如何实现scale up？
主要是通过网络InfiniBand和Spectrum X。后者具备了低延迟和拥塞控制特性，并且成功scale up有史以来最大的单GPU集群。

不仅如此，英伟达还希望在Rubin时间框架内，将GPU的数量扩展至数十万个。而这一目标实现的主要挑战在于，大规模连接的问题。
值得一提的是，老黄官宣了英伟达首个共封装硅光子系统，也是世界上第一个每秒1.6T的CPO。
它基于一种「微环谐振器调制器」的技术（micro ring resonator modulator），并使用了台积电工艺技术构建。

现在，具备了将硅光子学与共封装的结合，无需使用收发器，直接接入光线，并将其集成到512径基数的交换机中。
这样，便能够轻轻动动扩展至数十万，甚至百万GPU规模。

至于再下一代，则是将于2028年上市的Feynman（费曼）。
该命名致敬了美国著名理论物理学家Richard Feynman。

桌面级「黄金超算」，AI算力20000 TFLOPS

苹果这个月刚刚发布能跑6000亿参数的Mac Studio，反身又要被英伟达超越了。
今天，老黄正式推出Blackwell RTX PRO工作站和服务器系列，专为开发者、创意工作者、数据科学家构建和协作提供全方位的AI支持。
具体来说，它包括了数据中心GPU、桌面GPU，以及笔记本GPU。
这些GPU能够提供卓越的性能、效率，解锁生成式AI、智能体AI和物理AI的巨大潜力。
RTX PRO 6000 Blackwell采用了英伟达流式多处理器提供高达1.5倍吞吐量，第五代Tensor Core支持高达每秒4000万亿次AI运算，第四代RT Core性能提升高达前一代的2倍。

不仅如此，老黄还带来了两款由Blackwell驱动的DGX个人桌面AI超级计算机。
一个是DGX Spark（原名Project DIGITS），另一个是DGX Station。

老黄称，「AI已经改变了计算堆栈的每一层，理所当然就会出新一类的计算机——专为AI原生开发者设计，并运行AI原生程序」。
这两款桌面超级计算机，便是这样的存在。
DGX Spark可以称得上，世界上最小的AI超级计算机，配备128GB内存。

核心是GB10 Grace Blackwell超级芯片，能够提供每秒高达1000万亿次操作的AI计算能力，可以用于微调和推理模型。
DGX Station则将数据中心级别的性能，带到每个人桌面用于AI开发。
作为首款采用GB300 Grace Blackwell Ultra桌面超级芯片构建的系统，DGX Station配备了高达784GB的统一内存，以加速大规模训练和推理工作负载。
如下是Blackwell驱动下，所有英伟达DGX家族。

Scaling Law没撞墙，2028年数据中心将达一万亿！

开场时，老黄手举GeForce 5090，和4090做了对比，它的体积小了30%，性能的提升却难以置信。

GeForce将CUDA带给了全世界，而CUDA开启了AI，而AI又反过来改变了计算机图形学。
如今大火的则是智能体AI，它可以感知、理解、推理，还能计划行动，使用工具，自己访问网站去学习。
而接下来，就是物理AI，它将理解物理世界，理解摩擦、惯性、因果关系。它使机器人技术成为可能。
而这次大会上，Agentic AI和Physical AI将是全程的核心。

接下来，老黄重提了Scaling Law。
这涉及了三大问题：如何解决数据？如何训练模型？如何扩展？
预训练要解决数据问题，后训练解决的是human-in-the-loop问题，而测试时Scaling，则提升了AI的推理。

老黄表示，去年整个世界都搞错了，Scaling并没有撞墙！
从GPT开始，到如今的推理AI，它不再是仅仅预测下一个token，而是生成100多倍的token。
这样，推理计算量就更高了，计算速度必须提高10倍，如今需要的计算量比去年这个时候我们认为需要的多出100倍。
那么，数据应该从哪里来？答案就是强化学习。
通过强化学习，我们可以生成大量token，这就涉及到了合成数据，给整个行业带来巨大的计算挑战。
比较一下Hopper的峰值年份和Blackwell的第一年，会发现：AI正处于转折点。

Blackwell发货才一年，我们就见证了全球AI基础设施的惊人增长。仅在2024年，全球TOP 4的云服务商买进的Hopper架构芯片就达到130万块。
老黄表示，未来数据中心建设将达到一万亿美元的规模，并且他确信，这个时间很快了！
根据预测，到2028年就能达到这个规模。

如今，通用计算已经走到了尽头，我们已经到达加速计算临界点，需要一种新的计算方法。
世界正在经历一个平台转移，从在通用计算机上运行的手写软件，转向在加速器和GPU上运行的机器学习软件。
过去，我们编写软件并在计算机上运行。未来，计算机将为软件生成token。
计算机已经成为生成token的工具，而不仅仅是文件的检索工具，老黄称之为「AI工厂」。

上面这张幻灯片，可以说是GTC最核心内容的结晶。
英伟达通过由Grace Hopper和Grace Blackwell架构支持的各种CUDA-X库，为每一个科学领域提供了加速框架。
比如，解决涉及稀疏矩阵的大型工程仿真问题的cuDSS，模拟极其复杂的量子系统的cuQuantum等等。
而这些，仅仅是使加速计算成为可能的库的样本。
如今，通过英伟达的900多个CUDA-X库和AI模型，所有人都可以加速科学研究，重塑行业，赋予机器视觉、学习和推理能力。
老黄表示，从业三十年中，最令自己感动的一件事，就是一位科学家对自己说：「Jensen，因为你的工作，我可以在有生之年完成我的毕生事业」。
如今，每年有1000亿美元的资本投入无线网络和用于通信的数据中。
加速计算的趋势已经无法阻挡，AI将进入每个行业，比如改变无线电信号。

既要大量token思考，又要快速生成

如今，英伟达已经完成了计算机架构的基本转型。
大约三年前，他们就展示过Grace Hopper（Ranger系统），但它太大了，需要解决规模扩展的问题。
当时的想法是，使用大量商用计算机，将它们连接成一个大型网络，然而，这种方式会消耗太多电力和能力，根本无法实现深度学习。
而HGX系统架构，彻底解决了纵向扩展的问题。

它包含8个GPU，通过MVLink 8连接到CPU架上，然后再通过PCI Express进行连接，很多这样的设备再用InfiniBand连接起来。
这，就英伟达在向外扩展之前所能达到的最大规模了。
然后，他们又做出了世界上性能最高的交换机——NVLink交换机，使得每个GPU能够同时以全带宽与其他所有GPU通信。
同时，利用液冷将计算节点也压缩到1u的托盘中，从而为行业带来了巨变。

从此，集成NVLink转向分散式NVLink，从空气冷却转变为液冷，从每台计算机约6万个组件到每个机架60万组件，120千瓦功率，全液冷设置。
于是，一个机架里，就有了一个Exaflops级别的超算。

英伟达的目标，就是构建这块芯片，此前没有任何一种工艺能实现。
它包含130万亿个晶体管，其中20万亿用于计算，而解决方法，就是将其拆分到Grace Blackwell NVLink 72机架中。

最终的结果，就是英伟达实现了Scaling，可以说，这是全世界实现过最极端的Scaling。
这个过程中的计算量，可能已经达到了内存带宽每秒570TB。而这台机器，已经达到了每秒百万万亿次浮点运算。

实际上，推理Scaling是一个「终极计算」问题。
推理是工厂生成token的过程，只有具备极高性能，才会提升服务质量，以及收入和盈利的能力。
生成的token越多，AI就越智能。但问题是，吞吐时间太长且速率慢，客户也不愿意买账。
因此，在计算工厂中，响应时间和吞吐量中间，存在着基本的矛盾关系。
老黄展示这张图中，x轴代表了生成的token，y轴代表着每秒token吞吐效率，理想情况下，图中黄色曲线应该是一个方形，即在工厂能力极限之内，非常快速生成token。
然而，现实没有哪个工厂可以做到这点。
曲线才是最符合现实的一种，工厂的目标是最大化曲线下方的面积，越是向外推，代表着建造的工厂越优秀。
另一个维度，则需要巨大的带宽、最大的浮点运算能力。

现场，老黄展示了一个传统大模型和推理模型，基于同一段提示通过思考token解决问题的关键区别。
一边是Llama 3.3 70B，另一边是DeepSeek R1。
这段提示词的大意是要求在遵循传统、拍照角度和家族争端等约束条件下，在婚礼宴会上安排宾客入座。
I need to seat 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she&#39;s on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?
结果，传统LLM只需不到500个token就能快速回答，但结果是错误的。
而推理模型则需要超过8000个token来推理这个比较简单的问题。
推理模型需要消耗超过20倍的token量完成问题，计算量也随之增加了150倍。

而下一代模型，参数可能会达到万亿级别。
解决方案，就是将这些万亿级的参数分布在多个GPU上，通过管线并行、张量并行和专家并行的组合来解决。
8000多个token，就意味着数万亿字节的信息被输入到GPU中，逐个生成token。
这，就是我们需要NVlink到根本原因——它让我们能把这些GPU组成一个巨大的GPU，实现规模的终极Scaling。
终极摩尔定律：买越多，赚越多

接下来，黄仁勋发布了NVIDIA Dynamo，这是一款开源推理软件，旨在以最低成本和最高效率加速和扩展AI工厂中的推理模型。
他将其称之为「AI工厂的操作系统」。
「正如发电机（Dynamo）推动了工业革命，NVIDIA Dynamo将会革新AI工厂」。
随着AI推理变得越来越主流，AI模型在每次提示下都会生成成千上万的token来进行「思考」。
如何在提高推理性能的同时，还能不断降低推理成本？
这便是NVIDIA Dynamo推出的意义。
NVIDIA Dynamo是NVIDIA Triton Inference Server的下一代产品，它能协调并加速数千个GPU之间的推理通信，并使用分布式服务把LLM的处理和生成阶段分配到不同的GPU上。
这样每个阶段都能根据自己的需求单独优化，确保GPU资源被充分利用。
在同样的GPU数量下，Dynamo能让运行Llama模型的AI工厂在Hopper架构上性能和收入双双翻倍。
在GB200 NVL72集群上运行DeepSeek-R1模型时，NVIDIA Dynamo的智能推理优化还能让每个GPU生成的token数量提升超过30倍！
为了实现这些推理性能的提升，NVIDIA Dynamo能根据请求量和类型的变化，动态添加、移除或重新分配GPU，还能在大型集群中精准找到特定GPU来减少响应计算和路由查询。
它还能把推理数据卸载到更便宜的内存和存储设备上，需要时再快速取回，尽量降低推理成本。
老黄在现场宣布NVIDIA Dynamo完全开源，支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM。

下图中，横轴代表为用户每秒处理的token数量，纵轴是工厂每秒处理的token吞吐量。
比如，Hopper平台用8个GPU连上InfiniBand，可以为每个用户提供100 token/秒的处理速度。
老黄开始算了起来，「有了这个坐标，我们就可以用token/秒和能耗来衡量收益了。」
比如，250万token/秒按每百万token 10美元算，就能带来每秒2500美元的收入；而如果降到10万token/秒，那也就是250美元。
而一年有3000多万秒，这直接关系到1兆瓦数据中心的年收入。
所以，目标是找到token处理速度和AI智能之间的平衡点：速度快能做聪明AI，客户愿意多付钱，但越聪明，批量生产就越难。
相比之下，新的Blackwell架构比Hopper强多了，尤其在能耗固定的情况下，性能提升了25倍，甚至在推理模型上直接比Hopper高40倍。
更厉害的是，Blackwell用MVLink 8技术加速，还引入了4位浮点数优化，减少能耗提升效率。
老黄表示，未来数据中心都会受限于电力，收入也跟电力挂钩，所以能效高的架构最重要。
接下来，Blackwell将扩展到MVLink 72，再加上Dynamo软件，效果将更上一层楼。
老黄表示下图里的彩虹线非常惊艳，展示了各种配置下的最佳表现。
从顶部3000批大小到底部的2批大小，配置灵活应变。
这些优化让数据中心能适应不同工作负载，证明了架构的重要性。
说到这，老黄举了个例子，在推理模型上，Blackwell的性能直接比Hopper高了40倍，真的很了不起！
「一旦Blackwell开始大规模出货，Hopper可能连送人都没人要了。」老黄在现场打趣道。

黄仁勋说，销售团队听到他这话估计要急了，担心影响会Hopper的销量。
但老黄认为，技术进步太快，工作负载又重，像AI工厂这样的大型项目，最好投资在最新版本的技术上，比如Blackwell，这样才能跟上潮流，避免落后。
接着，他拿出一个具体的例子来对比：一个100兆瓦的AI工厂用Hopper技术需要45000个芯片、1400个机架，每秒能产出3亿个token。
而同样的工厂如果用Blackwell，虽然芯片数量减少，但效率更高，整体性能更强。
老黄再次调侃道，销售团队可能觉得这是在「少卖货」，但实际上还是之前那个观点，「 the more you buy, the more you save」（买得越多，省得越多）。
甚至，现在还要更进一步：「the more you buy, the more you make」（买得越多，赚得越多）。

首个通用机器人模型开源，规模仅2B
正如老黄所言，Physical AI也是今年行业的重点。
他表示，「预计本世纪末，世界劳动力短缺人数将超过5000万，而通用机器人的时代已经到来」。
具身智能也遵循着三大Scaling Law。

数据短缺成为Scaling一大难题，英伟达Omniverse和Cosmos能够同时为具身智能的训练，生成大量多样化、高质量的数据。
然后开发者利用Isaac Lab通过增强数据集后训练机器人策略，并通过模仿学习让机器人通过克隆行为来学习新技能，或者通过试错和强化学习AI反馈进行学习。

这一次，英伟达正式官宣了世界首个开源、完全可定制的通用人形机器人模型——GROOT N1。
这款模型的设计从人类认知过程汲取灵感，采用了「双系统架构」，分别可以进行快思考和慢思考。

技术报告：https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf

在视觉语言模型驱动下，慢思考系统（System 2）能够对环境和指令进行推理，然后规划出正确的行动。
快思考系统（System 1），可以将上述计划转化为机器人精确、连续的动作，包括操纵物体、执行多步骤序列的能力。
值得一提的是，System 1是基于人类演示数据和Omniverse生成大量的合成数据进行训练的。

GROOT N1可以轻松在上见任务中进行泛化，或执行需要长上下文和多种通用技能组合的多步骤任务。
比如，抓取、用一只手臂/两只手臂移动物体，以及在两个手臂之间传递物品。

此外，英伟达还与DeepMind、迪士尼研究一起开发下一代开源的Newton物理引擎，能够让机器人学习如何更精确处理复杂任务。

随后，以星球大战BDX机器人为灵感，装上Newton引擎的Blue上台和老黄来了一波有趣的互动。

最后，老黄预言：在未来，机器人领域将成为最大的产业。
毫无疑问，英伟达又一次成为了赢家。

发表于 2025-4-1 10:07:41

AI部分，老黄反复提到了两个概念，一个是agentic AI，一个是physical AI。
前者对应了这段时间非常火的各种AI Agent，MCP协议等等，后者对应了机器人，具身智能，但是千言万语汇成一张图，就是这个。

他把未来的计算机系统抽象成一个token factory，不再用软件这种东西来定义计算机系统，而是假设所有的操作都是由自然语言构成的Prompt，来让电脑作为AI来理解，然后消耗token来推理来应用各式各样的工作来完成操作。
然后这种结构就需要用到reasonling LLM，相比起传统LLM，它需要更多的Token，因为它会把问题进行拆分，推理，一致性检测，回溯，老黄展示了一个案例，对于一个简单问题，传统LLM消耗400多个token，DeepSeek R1用了8000多个，20多倍的差距。
而agentic AI需要的更多，因为它需要调用更多的应用，进行更多的推理，以及需要更多的context记忆，这种组合下面，token消耗量很轻松的会达到现在的100倍及以上。
physical AI的原理也如出一辙，总之，token不够用。
那就很容易得出结论，token是由GPU产生的，GPU是Nvidia造的，说来说去，老黄的意思还是Nvidia才是未来一切的发电机。
他都把计算机系统抽象成Token生产线了，那就是摆明了还是在强调英伟达的独特性。
不过总的思路肯定是没问题的，不过从细节上来说，未来token肯定是造的越快越好，但问题是从DeepSeek R1的表现来看，Nvidia对于自家的产品并不是100%的理解。
在我的理解下，未来一定是软硬件一体化的世界，只有100%适配自己硬件的软件才是最终的王者，没人能卷的过它。

发表于 2025-4-7 05:50:25

在GTC 2025上，NVIDIA创始人兼CEO黄仁勋的主题演讲有许多亮点值得关注。 首先，他可能会分享关于NVIDIA最新技术和产品的重要信息，如新一代显卡、数据中心和云计算领域的创新等。此外，黄仁勋还可能会就行业趋势和技术发展进行深入探讨，并阐述NVIDIA在这些领域的战略计划和未来发展方向。 另外，黄仁勋的演讲风格总是充满激情和前瞻性，他可能会分享一些令人振奋的见解和预测，关于人工智能、机器学习等领域的发展和应用。因此，观众可以期待从他那里获得关于未来技术趋势的深刻洞察。总的来说，GTC 2025上黄仁勋的主题演讲无疑会有很多亮点值得期待。

发表于 2025-4-7 05:56:34

在GTC 2025上，NVIDIA创始人兼CEO黄仁勋的主题演讲无疑是关注的焦点。关于演讲的亮点，以下几点值得关注： 一、新的技术动向：黄仁勋可能会分享关于新一代GPU架构的重要更新以及人工智能领域的新进展。 二、应用创新：演讲中会展示如何利用NVIDIA的技术推动各个行业的应用创新，特别是在自动驾驶、医疗和云游戏等领域。 三、合作伙伴生态：黄仁勋可能会强调NVIDIA合作伙伴生态系统的扩展与成功，以及如何推动与各行各业的合作伙伴共同发展。 四、对未来的展望：黄仁勋可能对市场趋势发表自己的看法，并针对NVIDIA未来的发展提出战略规划。 如需了解更多内容，可查阅NVIDIA官方资讯或相关新闻报道。

发表于 2025-4-7 05:58:14

在GTC 2025上，NVIDIA创始人兼CEO黄仁勋的主题演讲有以下亮点值得关注： 1. 新产品发布：黄仁勋将详细介绍NVIDIA最新研发的产品和技术，如数据中心产品和技术、新一代显卡等，引领行业发展新潮流。 2. 技术前沿探索：黄仁勋会深入探讨图形处理技术的新突破和行业发展趋势，并分享NVIDIA在未来人工智能和机器学习领域的发展规划。 3. 行业影响分析：作为行业领袖，黄仁勋对科技行业的看法和理解值得关注，尤其是NVIDIA未来的市场布局和竞争优势等方面的信息。这些分析有助于深入理解行业发展方向和未来趋势。 总体来说，这次演讲对于了解NVIDIA的最新动态和行业发展趋势具有重要意义。

GTC 2025 黄仁勋主题演讲有哪些亮点值得关注？

本周热门