如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？

发表于 2025-4-1 08:46:46

论芯片技术，还得是英伟达
系统集成商可搞不出来nvl72这种72GPU等同机内互联的产品
在这个被誉为“AI界超级碗”的GTC 2025上，黄仁勋的主题演讲聚焦于英伟达在AI领域的最新突破，并分享了他对未来几年行业发展的预测。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-1.jpg

Ultra并不是最初预期的那样，因为英伟达去年曾表示，将以每年一次的频率推出新的AI芯片，速度比以往任何时候都快，而Blackwell
Ultra并非基于全新架构。在3月18日的GDC主题演讲中，英伟达很快便跳过了Blackwell Ultra，转而公布了下一个架构Vera
Rubin，其整机架性能应是同等配置的 Blackwell Ultra的3.3 倍。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-2.jpg

据知情人士透露，B300芯片作为Blackwell Ultra系列的心脏，其TDP功耗已经飙升至惊人的1400W，这标志着NVIDIA在高性能计算领域迈出了重要一步。得益于先进的ultra架构，B300在FP4性能上实现了1.5倍的增长，这一突破无疑将为用户带来更为流畅和高效的计算体验。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-3.jpg

英伟达表示，新机架级解决方案的性能是NVIDIA GB200 NVL72的1.5倍；而与使用NVIDIA Hopper构建的工厂相比，Blackwell的AI工厂收入机会增加了50倍。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-4.jpg

英伟达周二当天发布针对开发者和企业的开源AI模型系列，帮助他们打造Agentic AI平台，并针对企业发布Blackwell Ultra DGX SuperPOD。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-5.jpg

我们可以看一下从GB300到Vera Rubin的历史
1. GB300：今年下半年出货，推理性能飙升
2026年Vera Rubin：性能是GB300的3.3倍
2027年Rubin Ultra：性能狂飙14倍！
终极目标：性能达到GB300的14倍，命名规则再变——Feynman接棒。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-6.jpg

Vera Rubin是美国知名天文学家，在暗物质研究领域取得了突破性进展，其研究成果彻底改变了人类对宇宙的认知。
Vera集成88个定制Arm核心，176个线程，1.8TBp/s NVLink-C2C。Rubin中有两个GPU，FP4精度推理性能达到了50PF，还可以支持高达 288GB的快速内存——是AI开发人员关注的核心规格。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-7.jpg

再看Rubin这位小清新，走的是&#34;西装暴徒&#34;路线——巴掌大的身子骨藏着能效黑科技，活像给自动驾驶和机器人定制的能量块。这芯片要是成精，准得蹲在服务器机房门口唱：&#34;算力不够，Rubin来凑；功耗太高，Ultra别跑！&#34;

发表于 2025-4-1 08:57:03

Blackwell Ultra跟Rubin系列严格意义上算是两个故事。
首先是Blackwell Ultra
Blackwell Ultra本质还是Blackwell 家族的计算卡，它可以看成是GB200系列的产品的半代迭代，本质也是一个Grace CPU与两个Bx00计算卡构成的套件，然后通过多个套件堆叠实现NVL16/36/72集成系统。
Blackwell Ultra主要的更新点在于B200 GPU到B300 GPU的迭代，其中主要的升级点在两个部分上。
第一个是8-HI HBM3E 升级到12-HI HBM3E，这样的迭代让HBM3E单颗的容量由24 GB升级到了36 GB，使得整个B300 GPU获得了从192 GB HBM3E到288 GB HBM3E的 50%容量进步。
另一个调整的则是FP4算力的变化，具体来说，dense FP4从 10 PF进步到了 15 PF，这个部分的变化主要是通过重新流片，减少了片上的FP64 与Int 8的计算单元，包括Tensor core与CUDA，用更多的低精度Tensor替代来获得的。
这种变化实际上使得B300计算卡变得更加低精度化，也就是所谓的AI化，更远离了传统的通用高性能计算，当然更好的低精度性能对现阶段AI应用来说确实更加有利一些。

第二个故事是Rubin
Rubin实际上才是Blackwell后的新家族，或者叫新架构产品。
在Rubin家族的产品中，NV实际上展示了两个part，一个部分是新架构2x Rubin/Rubin Ultra GPU与Vera CPU组合的单套件性能，另一个部分则是由多个Rubin 套件堆叠出来的超高集成度系统Rubin NVL144/576。

Rubin 单GPU的性能还是很有意思的，常规版本主要是显存升级到HBM4，获得了比较明显的带宽提升，以及GPU核心的调整。
Rubin架构给出来单卡性能为 50 PF的FP4，在这里因为NV没有给出稠密/稀疏的定义，所以在这里我单方面的认为应该是稀疏FP4 50PF，这样对应的单卡就是25 PF稠密FP4。这样的话，对比Blackwell的B200来看，实际上在AI算力上性能进步在2.5x水准。
当然如果老黄难得的实诚了一回，这里标注的是50 PF稠密FP4，那实际单卡提升就是5x水平，不过我对这个结果表示存疑。
这样的大量性能进步，毋庸置疑是同时来自架构与制程共同进步的结果，如果没有太多意外的话，Rubin应该基于TSMC的N3P制程。

与Blackwell Ultra略有不同，Rubin Ultra并没有通过重新流片削减内部其他计算单元来获得更好的低精度性能，NVIDIA在这个产品中选择简单粗暴的直接MCM堆叠两个Rubin GPU用以构建单个的Rubin Ultra GPU。
除了使用4-tile GPU外，另一个明显的变化在于使用了16-HI的HBM4E显存，根据前段时间看过的海力士跟镁光的HBM系列Roadmap，16-HI HBM4E可以达到单颗64 GB，这样的话16*64就是1024 GB，即单卡1 TB的显存。
Rubin故事的第二个部分在于高集成度的系统进一步升级。
从Blackwell的单系统36x GB200/300，进一步的通过新的硅光互联，NVLINK7，新的互联芯片实现了72x与288x GR系列套件的大规模与超大规模集成。
这样转变意味着以后NV会不仅仅成为GPU的提供商，甚至会进一步成为集成系统方案的提供商，当然这就是另一个故事了。

发表于 2025-4-1 09:11:08

感觉黔驴技穷了
纯靠die堆叠
对于LLM
从推理来看，自回归llm，越买越亏，要把decode做到compute bound不大可能，kvcache的限制
从训练来看，现在是RL训练时代，仅有头部几家玩预训练， rollout耗时占比超过80%，远超actor model training time
其实H系列做推理训练就够了，堆die只会越买越亏。

发表于 2025-4-1 09:23:53

此次GTC不仅有去年提到并今年量产的GB300也就是Blackwell Ultra、还有2026年的Rubin，以及2027年两个Rubin拼起来的Rubin Ultra，此时拥有4个计算die，FP4算力达到了100P，并拥有1TB的HBM4e。
GTC 2025 黄仁勋主题演讲有哪些亮点值得关注？<hr/>Blackwell Ultra

Blackwell Ultra（B300）相对Blackwell（B200）算力提升50%，FP4 Dense来到了15P，算力的巨大提升未知，应该离不开架构面积优化/良率提升/频率提升这几方面，官方只明确说了FP4算力提升50%！也许只是为了加速推理塞入了更多的FP4计算资源；
值得关注的是New Attention Instructions, 但官方好像并没有说是啥！！！

官网上为数不多的描述，估计增加了个attention相关的指令进行了加速，经评论区 @jpgas 提醒，应该是mufu相关指令，加速MHA的SoftMax用的，这个后续再仔细分析下。

Blackwell相对Hopper tensor算力翻倍后，如果MUFU.EX2不做优化，那么MMA便掩盖不了Softmax的计算耗时了，因此做相关的优化也挺合理的。
B300为了提升FP4的算力密度，继续拿高精度数制下手？毕竟B200就把FP64砍了一刀。。。

随后对比官方数据

FP64 tensor以及cuda core基本给砍掉了，只剩原来的5/148，保留这点只为了兼容（感觉是在5个SM保留完整的FP64相关的算力？）
INT8 tensor也给砍掉只有B200的1/32
但FP4 With sparsity | without sparsity不是2倍的关系了，只增加了fp4 without sparsity，估计架构带宽受限（看来Blackwell初期架构设计L2 带宽给的还是挺足的），再多加也没用了，不知道后续Rubin如何取舍的

这里有一些点比较容易混淆，B300应该是GB300的次品，只有GB300里面的B300才有接近“完整版”的算力，最终达到15PF，命名不仔细梳理下是很容易混淆参数的。
Rubin

再来说说2026年的Rubin“期货”，单芯片从Blackwell Ultra的15PF dense FP4提升到了Rubin 50PF ”Sparse“ FP4，基本翻倍。另外估计初期的HBM4密度低，只有288GB，大概是12Hi，应该与GB300的 HBM3e密度相同，不过带宽来到了13TB/s，毕竟升级了HBM4。
值得注意的点是

NV没有引入新的数制，几年内FP4是推理的主流？数制带来的算力提升算是到头了？
3.6EF的FP4已经是1.2EF的FP8的3倍！！！加速推理，FP8及更高精度的数制节省下来给FP4更多的面积？真是这样的话算力增长得肉眼可见的乏力

如下是一些个人猜测
完整版的Rubin应该具有224个SM，完整版的Blackwell Ultra仅有160个SM，比值是1.4，Dense FP4算力的比值约为1.67，1.4与1.67这两个比值的对比就很有趣了。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-8.jpg

https://en.wikipedia.org/wiki/CUDA

意味着至少FP4这个数制并没有保持每代FMA/SM/CLK翻倍的规律。再来看看FP8算力比值也是1.67，因此FP8这个数制也一样。
1.4是如何提升至1.67的

频率？有可能，但有点难了；
像Blackwell Ultra升级FP4算力那样，即使不翻倍也要尽可能塞入更多的FP4 FP8计算资源？

注：猜测的前提是Rubin仅有25PF Dense FP4，如不是这个数值那前面猜测全都是错的hhh。
Rubin Ultra

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-9.jpg

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-10.jpg

Rubin Ultra就是两个Rubin拼接而来，只不过有了1TB的HBM4e（不知道内存厂届时可以量产吗），另外NVL576听着吓人，其实只有144个Rubin Ultra Package。
参数汇总

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-11.jpg

https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/

semianalysis总结的参数表格作为小结，这个表格依然不完美，官方公布的Rubin没有明确说dense，那么一般就是sparse，不过总体来说表格制作的还是挺不错的。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-12.jpg

NVlink相关的目前关注不多，就不做过多评价了，看参数Lane Speed也要到头了。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？-13.jpg

路线图更新，下一代费曼会带来何种惊喜呢。

发表于 2025-4-1 09:35:13

BLackWell Ultra也就是B300；
与现有的B200相比，提升了50%以上的内存和FP4计算能力。
整好是B100的两倍。
Blackwell Ultra B300（感觉里面封装了4个DIE，因为B100就是两个DIE）。
另外还增加HBM3e堆栈的容量（从192GB增加到288GB）。
B300的实现有两种可能，
一种是封装了4个DIE，就是两个B100（B100就是两个DIE）的就计算能力
另一种就是还是2个DIE，只不过每个DIE上更多的SM核。
就像从B100升级到B200。
我还是倾向于第一种。

可以对比一下B100和B200

	B200	B100
类型	离散加速器	离散加速器
记忆时钟	8Gbps HBM3E	8Gbps HBM3E
内存总线宽度	2x4096位	2x4096位
内存带宽	8 TB/秒	8 TB/秒
显示存储器	192GB(2x96GB)	192GB(2x96GB)
FP4 密度张量	9 PFLOPS	7 PFLOPS
INT8/FP 0 密集张量	4.5 P(FL)OPS	3.5 P(FL)OPS
FP16 密度张量	2.2 PFLOPS	1.8 PFLOPS
TF32 密集张量	1.1 PFLOPS	0.9 PFLOPS
FP64 密度张量	40 TFLOPS	30 TFLOPS
互连	NVLink 5（1800GB/秒）PCIe6.0(256 GB/秒)	NVLink 5180GB/秒)PCIe6.0(256 GB/秒)
GPU	BLackwell	Blackwell GPU
GPU晶体管数量	208B（二进制1, 4 B）	208B（二进制1, 4 B）
TDP	10千瓦	700W
制造工艺	TSMC 4NP	TSMC 4NP

Blackwell Ultra可以使用DeepSeek R1-671B模型每秒发送多达1000个token(这个应该不是最大的)。
与之相比，H100秒只提供最多100个token。
因此，吞吐量增加了10倍，将处理较大查询的时间从1.5分钟缩短到10秒。
除了基本B300外，还将推出新的B300 NVL16 服务器机架解决方案、
GB300 DGX站和GB300 NV72L全机架解决方案。
将8个NV72L机架放在一起，就是Blackwell Ultra DGX Super POD
（8个机柜的E级别超算了。）
这八个机柜里面集成了
288Grace CPU，
576 Blackwell Utlra GPU，
300TB HBM3e内存
最终达到的效果也比较惊人：11.5 ExaFLOPS FP4。

这一代是72个GPU的NVLINK组合的机柜。
下一代就是576个GPU的nvlink的机柜了。
单个芯片太难卷了。
现在就要卷集群。

从单个GPU到多个GPU的机架，再到多个机架的集群（POD）。
英伟达把系统集成商的活干了，并且管这玩意叫大GPU。
不给中间商赚差价的机会啊。

发表于 2025-4-7 06:25:34

英伟达新推出的BlackWell Ultra与Rubin AI芯片是业界领先的AI计算解决方案，具备出色的性能和效率。BlackWell Ultra提供了强大的数据处理能力，适用于各种复杂的AI应用场景。Rubin AI芯片则以其高度优化和智能性能，显著提升了AI应用的响应速度和准确性。<br><br>总体来说，这两款芯片为人工智能领域的发展注入了新的活力，将推动AI技术在各个行业和领域的广泛应用。其性能卓越、功能强大，是英伟达在AI领域的又一次重要突破。

发表于 2025-4-7 06:28:01

英伟达新推出的BlackWell Ultra与Rubin AI芯片是业内领先的技术产品，具备强大的计算性能和智能处理能力。BlackWell Ultra提供高性能的CPU和GPU协同计算能力，支持更为复杂和实时的计算任务，可以满足高端应用场景的需求。Rubin AI芯片则具备高度智能化的处理能力，能够加速人工智能应用的运行，提高数据处理和分析的效率。总体来说，这两款芯片是英伟达在人工智能领域的最新突破，将推动人工智能技术的快速发展和应用。

发表于 2025-4-7 06:33:02

英伟达新推出的BlackWell Ultra与Rubin AI芯片在性能上均有显著提升。BlackWell Ultra芯片采用了先进的制程技术和设计理念，能大幅提升计算效率，尤其适合深度学习、机器学习等领域的高性能计算需求。Rubin AI芯片则更注重于数据中心和云计算的应用场景，具有强大的数据处理和分析能力。两款芯片都支持英伟达的生态系统，可以与其他产品无缝集成，为用户提供更全面的解决方案。综合来看，这两款芯片是英伟达在人工智能领域的又一重要突破，将推动人工智能技术的普及和应用。

如何评价英伟达新推出的 BlackWell Ultra 与 Rubin AI 芯片？

本周热门