BLackWell Ultra也就是B300;
与现有的B200相比,提升了50%以上的内存和FP4计算能力。
整好是B100的两倍。
Blackwell Ultra B300(感觉里面封装了4个DIE,因为B100就是两个DIE)。
另外还增加HBM3e堆栈的容量(从192GB增加到288GB)。
B300的实现有两种可能,
一种是封装了4个DIE,就是两个B100(B100就是两个DIE)的就计算能力
另一种就是还是2个DIE,只不过每个DIE上更多的SM核。
就像从B100升级到B200。
我还是倾向于第一种。
可以对比一下B100和B200
| B200 | B100 | 类型 | 离散加速器 | 离散加速器 | 记忆时钟 | 8Gbps HBM3E | 8Gbps HBM3E | 内存总线宽度 | 2x4096位 | 2x4096位 | 内存带宽 | 8 TB/秒 | 8 TB/秒 | 显示存储器 | 192GB(2x96GB) | 192GB(2x96GB) | FP4 密度张量 | 9 PFLOPS | 7 PFLOPS | INT8/FP 0 密集张量 | 4.5 P(FL)OPS | 3.5 P(FL)OPS | FP16 密度张量 | 2.2 PFLOPS | 1.8 PFLOPS | TF32 密集张量 | 1.1 PFLOPS | 0.9 PFLOPS | FP64 密度张量 | 40 TFLOPS | 30 TFLOPS | 互连 | NVLink 5(1800GB/秒)PCIe6.0(256 GB/秒) | NVLink 5180GB/秒)PCIe6.0(256 GB/秒) | GPU | BLackwell | Blackwell GPU | GPU晶体管数量 | 208B(二进制1, 4 B) | 208B(二进制1, 4 B) | TDP | 10千瓦 | 700W | 制造工艺 | TSMC 4NP | TSMC 4NP |
Blackwell Ultra可以使用DeepSeek R1-671B模型每秒发送多达1000个token(这个应该不是最大的)。
与之相比,H100秒只提供最多100个token。
因此,吞吐量增加了10倍,将处理较大查询的时间从1.5分钟缩短到10秒。
除了基本B300外,还将推出新的B300 NVL16 服务器机架解决方案、
GB300 DGX站和GB300 NV72L全机架解决方案。
将8个NV72L机架放在一起,就是Blackwell Ultra DGX Super POD
(8个机柜的E级别超算了。)
这八个机柜里面集成了
288Grace CPU,
576 Blackwell Utlra GPU,
300TB HBM3e内存
最终达到的效果也比较惊人:11.5 ExaFLOPS FP4。
这一代是72个GPU的NVLINK组合的机柜。
下一代就是576个GPU的nvlink的机柜了。
单个芯片太难卷了。
现在就要卷集群。
从单个GPU到多个GPU的机架,再到多个机架的集群(POD)。
英伟达把系统集成商的活干了,并且管这玩意叫大GPU。
不给中间商赚差价的机会啊。 |
|