为什么英伟达的显卡显存都没办法做大?

rt,现在为了跑ai各家都在拼命买英伟达的显卡,但英伟达的显卡显存都不是那么高,相比之下苹果金子一样的内存都变得极具性价比了。如果英伟达的显存能做的和苹果m3ultra一样直接来个顶配512g显存不直接能薄纱苹果?为什么英伟达不能把显存做大呢?
收藏者
0
被浏览
77

5 个回答

疯鱼 LV

发表于 4 天前

为什么英伟达的显卡显存都没办法做大?-1.jpg

最新的 GDDR6 16Gbit 颗粒报价是 9.5 美元,要组成 16GB 大约是 76 美元。
如果是使用 8Gbit 来组 8GB 则是 23.2 美元,两者差距大约是 53 美元或者说 385 元人民币。
显卡厂商不至于做慈善直接把颗粒按原价卖吧。
我很早以前曾经和 NVIDIA 的人讨论过毛利率的问题,他们认为,对 NVIDIA 而言,低于 40% 的毛利率就有可能产生诸如经营性亏损等财务危机.
这个说法是有可能成立的,像 AMD,我记得他们的游戏卡部门毛利在 30% 左右的时候显卡业务就是亏损的,其实现在 AMD 的游戏卡部门经营状况也是很一般。
这个说法成立的话,那么我们假定这个毛利率定在 70%,这额外的 8GB 显存需要增加的价格大约是人民币 1284 元。
我的计算比较粗糙,也没啥具体的根据,仅供参考。
作为参照:

为什么英伟达的显卡显存都没办法做大?-2.jpg

一些其他行业的毛利:

为什么英伟达的显卡显存都没办法做大?-3.jpg

三某人 LV

发表于 4 天前

谁和你说做不大了,H200 141GB显存啊。
哦,你说游戏卡?
游戏卡做大了那贵上天的计算卡怎么卖你告诉我。

内蒙电都主机 LV

发表于 4 天前

老黄知道打游戏的斤斤计较,在乎性价比,多用点显存就涨价就心痛了。所以只定个70%毛利率。
老黄也知道搞大模型的人的钱好挣,定个95%毛利率都没事。
谁让咱们塔尖上的明珠还缺那么几块呢
哪天摩尔线程奋发努力了,把96G以上显卡普及了,老黄估计也能良心降价了。

mjfh LV

发表于 4 天前

老黄从泰坦开始向计算卡发力,但是英伟达又想鱼和熊掌兼得,研发上消费卡和计算卡采用同一架构,甚至在50系之前直接就是同一颗核心。
toC端的业务赚不到多少钱,toB端大大不同,因为没有对手,溢价全部吃完,经典4090首发卖1w3、同核心的ada6000卖7w。
这种情况下老黄需要极力避免消费卡进入商用领域(像4090魔改48g变成ada6000这种就是扒了老黄的底裤,他一毛钱都赚不到),就是通过显存和带宽来对消费卡和计算卡做切分。

30系挖矿爆发、40系ai爆发,老黄意识到了计算卡蓝海大有钱途,在这个阶段,gpu已经实打实成为了生产工具,采购gpu纳入了资本支出范围,这里就出现一个非常严峻的矛盾:资本支出是有折旧的。
资产买回来是会折价的,就像投资建厂、建流水线,建成开始就折价。传统的买楼买地买设备,它们的折价率是基本固定可计的,因为地价楼价和设备价格不会有大幅度的波动,一般财报中就体现为分x年折旧,折完为止。
而显卡/计算卡不一样,它的折价率掌控在老黄手里,属于高技术风险资产,你今天用1000w买ada6000,明天老黄推出B100,你的ada6000瞬间变成落后产品,市场折价50%只剩500w。财报上更难体现,有可能一季度刚买,二季度就折旧30%。
作为上市公司,对这种高风险资产是很难接受的,当然,一般上市企业都会为了避免持有这种高风险资产而采用租赁服务的方式,向数算中心租赁算力而不是自己买卡。但总归计算卡如何保值或者说资产折旧率如何能平滑过渡的这个问题,进入了老黄的眼睛。

回顾过去,从后视镜中我们已经得知,老黄为了计算卡保值这件事,从30系就开始铺垫摩尔定律已死,开始推dlss。40 50挤牙膏式的性能增长以及性能和价格等比增长进一步证明了为了保计算卡业务,消费卡市场是可以被抛弃的。起码现在看来,计算卡资产保值的阳谋是成功了,blackwall的gb200因散热和频率问题难产和遭受退货后,就有厂商要求英伟达发货等值的ada计算卡,ada计算卡至今仍然保值,就像消费市场4090回收价节节攀升。

4090绝对是一次重大失误,魔改之后等于同代计算卡,这是不可接受的。所以我们看到50系开始消费卡和计算卡虽然同是blackwall架构但核心完全不同,不存在5090可以魔改成b100的可能了,同时对于显存也加大力度收缩范围,限定只有在顶级旗舰上才允许大容量显存出现。
那么显存控制在多少合适呢?控制在你的消费卡组机柜也不能部署一个优秀模型的位置合适。其实容量还挺大的,满血版deepseek671b需要大概896gb显存(FP16下),完全可以让消费卡出到24g,只是还是为了让上代计算卡保值,暂时不会拓到这个层面。

综上,不要指望老黄会出性价比卡了,英伟达现在只为计算卡服务,消费卡将长期保持性能和价格同步提升,16gb/20gb显存将是富哥顶级旗舰以外能买到的最大显存,我看好明年5080ti会出20gb。

Shoubuliao LV

发表于 4 天前

更新,一些评论区的问题比较有意思,这里统一解答下:
如果是技术原因老黄无法加更多显存,那华强北魔改48G显存的4090是咋做到的呢[好奇]
这个问题是问为何显卡很难做到苹果统一内存的量级,所以回答主要是解释显存和内存的区别。至于为何 4090 能魔改 48G,如果你看完我下面的回答就能发现它恰恰说明了魔改能成,很大程度上靠的是显存芯片密度的提升,也即是技术升级;此外 还有很多巧合和必然最终促成了魔改:4090 能改的原因是芯片 pin 脚与 3090 完全兼容,恰好可以被移植到 3090 的双面显存位基板上,而 3090 之所以搞双面显存位,正是因为 3090 那个时代 GDDR6X 显存堆叠密度不高,只能做到 8Gbit 颗粒,单面做不出来 24G 的总容量。后来英伟达在隔年的 3090 Ti 上等到了 16Gbit 密度的 GDDR6X 颗粒量产,立马就把 3090 Ti 换成了单面显存的基板,4090 也是一样的原因,一出来就用了当时最新的 16Gbit 密度显存,所以可以单面基板做到 24G,但是因为市面上没有 32Gbit 的 GDDR6X 颗粒,所以没法直接升级颗粒来提升容量。于是才有了搬运 4090 核心到 3090 基版,然后再添加一倍的高密度显存芯片从而实现 48G 的魔改。这一整条脉络正好印证了原文说的技术限制,但是技术本身是在发展中的,过去做不了的事,不代表未来做不了。类似的还有 2080Ti 改 22G,其实都是显存在发展,技术到了,单颗芯片容量提升了,才有机会实现魔改。另外这种魔改也不是无限制的,例如 4090 芯片本身的控制器能支持到 48G,再往上就不好说了,因为这需要特殊的 BIOS 和驱动等软件控制。4090 与商用的 RTX A6000 Aida 用的同样的核心,后者有 48G 的版本支持,所以有黑客能移植部分代码攻克 4090 的 48G 容量支持是可行的,但是再加大就需要更大的破解投入了。类似的,5090 也可能升级到 64G 显存,只是目前暂时没有那么大的单颗 GDDR7 芯片,以后有没有就不好说了。
同型号的显卡,16g的内存为什么比8g的贵那么多?内存颗粒才几个钱。
这里讨论的主要还是显卡和苹果电脑的显存容量差距问题,具体到民用显卡的容量,更多是商业行为,不是技术限制,你在 2017 年出一块 1080 16G 是没什么人会买的,不仅成本高,还得单独针对大容量设计双面基版。
但是放到 2025 年很多人愿意买大显存,一是显示器分辨率提升了,高像素和高刷的显示器得到更多的普及,其次是光追特效以及 VR 应用也需要更大的显存,再加上 AI 的风靡,本地化部署对显存容量的需求一下被拔高了,商家也嗅到这里面的巨大商机,8G 显存成本并不高,所以如果差价很大的话,只是更加苛刻的赚取暴利而已。
原文

这个问题不复杂,但是解释起来需要具备一定的基础芯片知识。
根本原因是对存储芯片来说,容量和速度是两个此消彼长的东西,如果再加入空间占用,那就更是复杂,而这之上我们要是再引入成本,那就是非常难说清了,我曾经在另一篇回答里面解释过为何苹果的内存金贵:Ryan Woo:MacBook Pro 升级内存为何那么贵? 现在我们不主要考虑成本,就单单从存储芯片的容量,速度和空间占用来解释。
现在由于 AI 的井喷,很多人转过来问为啥老黄的显存又比苹果的统一内存贵。最近刚刚泄漏的 NVIDIA RTX PRO 6000 "Blackwell" 显卡拥有高达 96G 显存,考虑到它的前代 RTX  Ada A6000 48G 的价格高达 $6000:

为什么英伟达的显卡显存都没办法做大?-1.jpg

我们可以推测 Blackwell 版 RTX PRO 6000 的价格不出意外,应该在 $8000-10000 的位置,这可能比满配 512G 统一内存的 M3 Ultra Mac Studio 还贵:

为什么英伟达的显卡显存都没办法做大?-2.jpg

其实说到这里,大家估计也看得出来了,聊苹果和 PC 价格差异的时候我们用的名词是“内存”,或者准确的说是“统一内存”拉高了苹果的价格,而这里面对老黄的显卡和 Mac Studio 时,我们说的其实是“显存”。显存其实就如同其名字:Graphics DDR 图形内存,其实就是内存针对显卡应用的特性化内存。而苹果的设备其实还是用的内存,只不过也是比较特殊的高速内存多通道并联使用。
因为这个问题问的其实是为何显存无法做到苹果的统一内存大,所以我就直接说原因了:技术限制
具体在,如今的技术很难在芯片和板卡面积有限的情况下,做到高传输带宽的同时,确像内存一样拥有大容量。
首先我们说带宽,显卡的显存到核心的带宽一般是数百GB/s 来计算的,我们拿一个最常见的显卡 4060 来说,它的关键指标其中之一就是显存吞吐数据的带宽,使用 GDDR6 显存,128bit 位宽的情况下,下图已经显示出来带宽是 335 GB/s:

为什么英伟达的显卡显存都没办法做大?-3.jpg

而我们常见的内存是什么带宽呢?其实即便是如今高端桌面用的 DDR5 6400,带宽仅有 51G/s 而已:

为什么英伟达的显卡显存都没办法做大?-4.jpg

当然这是单通道的数据,如果你是稍微懂点电脑的用户,都知道一般 PC 至少会是双通道内存组,所以大约理论带宽其实是 x 2,大约在 100G/s,那么我如果要继续增加带宽怎么办?你可能很快就能想到:加通道数呗,这就是服务器 CPU 做的事情,而且加通道不仅能增加带宽,也能提升容量上限。例如双通道的台式机普遍可以做到使用 128G 上限的内存,通道数更大的服务器就能加到 512G 甚至 6T 的程度,这样能显著提升带宽和容量,例如下图就是服务器 AMD Epyc CPU,插满 12 通道可以做到 460G/s 的带宽,6T 的总容量 :

为什么英伟达的显卡显存都没办法做大?-5.jpg

说到这里,你也许就开始兴奋了,既然内存也可以做到这么快,为啥显卡显存不增加容量呢?还记得我说的服务器 CPU 吗?这是它插满 12 通道内存的样子:

为什么英伟达的显卡显存都没办法做大?-6.jpg

而这是它的芯片在手上的实际大小:

为什么英伟达的显卡显存都没办法做大?-7.jpg

这告诉我们两个信息:为了支持 12 通道内存,Epyc 使用了12个内核,正中间的 IO 核心控制着 PCIe 接口和内存控制器,而其 IO 核心的设计和功能规划是这样:

为什么英伟达的显卡显存都没办法做大?-8.jpg

如此巨大的一颗芯片,有1/5 的晶体管在做内存相关的控制。
所以我们从物理角度来考虑:

  • 高通道数,需要 CPU/GPU 集成大量的晶体管作为内存/显存控制器
  • 为了减小通讯延迟,这些控制器还得尽可能接近内存芯片
  • 而为了满足带宽的需求,必须每个通道都需要独立的内存条/芯片
  • 为了满足大量的带宽,我们得让内存芯片跑在更高的频率上
如果我们把内存带宽想象成高速路,而内存控制器想象成高速公路的收费站,而内存芯片的速度相当于高速公路的道路数目,那么一个首都都市区能支持的高速公路的数量是远远大于一个小乡村的,因为城市的边缘面积更大,能容纳更多的通道,而如今的显卡也正是如此,可以看见 6700XT显卡核心的周边 3 面都已经堆满了显存控制器:

为什么英伟达的显卡显存都没办法做大?-9.jpg

所以为了达到高带宽和高容量,需要的成本是非常大的,你不仅需要足够的显存芯片构成多个通道提升带宽,还需要大量的晶体管用在显存控制器上,而且为了减小通讯延迟,这些控制器还得尽可能接近显存芯片,而芯片周围的面积是有限的。而传统的 DDR4/5 桌面内存很难做到更快的速度,所以我们才有 GDDR6 和 GDDR7 以及 HBM 等高速内存芯片。
这时我们再去看显卡:能在这样小的一张电路板上,用不大的核心和显存芯片来支持高达 300G/s 的带宽,已经是非常不容易了,所以显卡这种特化的产品,往往只能兼顾带宽和体积的同时牺牲掉容量

为什么英伟达的显卡显存都没办法做大?-10.jpg

而如果我们再考虑一下如今最快的 5090,高达 1800G/s 的带宽,但是实际板卡面积也不比上面的 4060 大多少:

为什么英伟达的显卡显存都没办法做大?-11.jpg

5090 Astral 板卡:

为什么英伟达的显卡显存都没办法做大?-12.jpg

这时你再回去用我们服务器的例子想想,如果要做到 1800G/s 带宽,用如今 DDR5 的技术水平,那估计需要 48 通道的内存,物理上妳把整个主板所有面积前后插满内存都不够,而同时你还需要超巨大的 IO 核心才能控制 48 通道的内存数据跟 CPU 核心并行交互,想想都酸爽,这就是超越了技术限制
所以到这里,你应该能理解为何显卡的显存很难增加容量了:
它们需要很高的带宽,就需要更特化的显存满足高速度,在成本和面积的制约下,就只能牺牲容量。
这就是为何在显卡上我们能看到 GDDR7 的首次使用,而桌面和服务器平台还在 DDR5 上缓慢爬坡。
现在我们再来看苹果,基于上面的讨论,你应该能理解苹果其实就是用技术做了一个适合自己的取舍,下图是苹果 M1 Ultra 的核心和 Zen 的对比,最新的 M3 Ultra 其实也大同小异:

为什么英伟达的显卡显存都没办法做大?-13.jpg

你可以看见苹果首先用了两块超大的核心来提供足够大的周边面积去支撑大通道的内存控制器,每一个 Ultra 是两个 Max 芯片的拼接,每一块 Max 芯片之间互联需要一面,IO 需要一面,只剩下两面可以用来设计内存控制器,链接内存芯片,而 Max 和 Ultra 也恰恰是这样做的:

为什么英伟达的显卡显存都没办法做大?-14.jpg


M1 Max die shot

至于内存部分,其实是用了 8 个内存芯片物理上构成 16 通道才能达到 800G/s 的带宽,这种设计可以说是兼顾了显卡的带宽需求和内存的容量优势:

为什么英伟达的显卡显存都没办法做大?-15.jpg

看似原理简单,就是堆料,但是物理上,可以说这样做的仅此一家,因为每一个内存芯片,你看的部分只是封装的芯片,其内部是几十层的堆叠才能做到每个颗粒 64G 的巨大容量,因为需求小,这样的配置也并不便宜,只能说比用 GDDR 显存便宜点。
同时这里你也能看出来,苹果虽然可以用 GDDR 显存获取更大的带宽,但是这样会极大限制统一内存容量上限,我们就看不到 512G 这种级别的配置了,再加上苹果的 GPU 处理器能力有限,也用不到这么大的带宽,因为其实际计算性能也就在 4070 的水平,给 800G/s 带宽已经非常够用,再多只是徒增成本,所以采用普通的内存 LPDDR5 成本也更低,也更加节能,这也是为啥 Studio 既能做到容量巨大的同时,还能保持对显卡的成本优势。
如果你继续问为何显存不提供大量的堆叠从而增加容量呢?这就涉及到物理规律了:内存芯片是半导体同样受制于功耗和发热,当你追求运行频率的大幅提升,增加芯片带宽时,它必然会有更大的发热,从而很难增加堆叠的层数,相较于 CPU,内存芯片的设计好歹重复性比较大,结构的复杂性低于 CPU,所以堆叠还能继续做,但是依然受限于当今的光刻机极限和成本,而如前所述,在 AI 爆炸以前,确实不太需要大量的显存集合在一张显卡上,所以 GDDR 这个显存分支,过去是不注重提升容量的,至于以后会不会有内存厂商发力,我个人估计应该会迎来一个小爆发。但是短期内,苹果的统一内存折中做法应该是一个不错的方向。
如果你继续好奇有没有用 GDDR6 显存当内存用的设备,其实也是有的,XBOX Series X 和 PS 5 都是拿 GDDR6 当统一内存使用。这虽然会提高成本,但是因为主机的生命周期长达 5-8 年,成本可以通过大量的采购订单来摊薄,所以在空间和性能有限的时候,采用 GDDR6 压榨出最后一点图形是值得的,至少成本上比再单独配置 8-16G 内存便宜,以及他们采用的 16G 颗粒组是比较成熟的产品,您不像苹果需要高堆叠而放入笔记本核心封装使用,所以成本还是可以接受的:

为什么英伟达的显卡显存都没办法做大?-16.jpg

所以无论是最顶尖的显卡还是苹果的 Mac Studio,其实都已经尽全力去用最新的技术来提示自己的产品价值,显存还是内存,只不过方向有所不同而已。苹果需要考虑自己 AI 虽然能提供大量的统一内存当作显存使用,但是带宽并不高,而 GPU 核心的性能也远不如 Nvidia 的显卡。另一方面 Nvidia 虽然有更强的核心,更大的带宽,但是显存容量是个硬槛,而且新的 GDDR7 也并不便宜,技术远没到成熟,产能也没最大化,在此基础上能把最新的游戏卡做到 32G,A6000 做到 96G 已经是极限,再往上只能靠 Nvlink 串联显卡来实现更大的显存容量。
就像任何事物一样,性能和容量都是互相制约的变量,而现实中我们还得加上体积和成本的考量,单纯意义上的只比较容量这一个数据,其实是刻舟求剑,结果也是南辕北辙。

您需要登录后才可以回帖 登录 | 立即注册