先总结一下,HGX H20、L20 PCIe 和 L2 PCIe。今天(也就是11月24日),路透社称英伟达已经告知中国客户,上述定制芯片的推出时间将推迟到明年第一季度。
虽然知道现在AI最大的限制就是算力的限制,特别是目前大模型不断更新的时候,谁拥有了足够的算力,再加上天才的一般的模型设计,必然会取得成功。
就像目前OpenAI一样,少量的人却拥有足够的计算资源,坚持自己的路一直走下去最终取得成功。
看来美国是准备好卡其他所有国家的脖子了,又准备借助AI在此让自己腾飞。
人工智能半导体控制
先来看看去年和今年美国的半导体显示更新哪些,今年的限制政策堵住大部分漏洞。当前人工智能芯片的聚合双向传输速率可以达到600GB/s,聚合运算吞吐量超过4800TOPs。这意味着芯片公司可以通过稍微降低芯片的双向带宽来规避管制,而实际应用于人工智能任务时,性能下降几乎可以忽略。例如英伟达在其H100和A100芯片基础上进行改进后的H800和A800系列芯片
为了填补之前的政策漏洞,就意味着需要取消对芯片双向带宽的限制,直接影响像A800、H800这样的芯片发挥最大效能,也意味着英特尔的Gaudi 2、Gaudi 3、以及AMD的MI250X、MI300等芯片都会被管制禁止出口。在运算吞吐量达到4800TOPs时,人工智能计算需求大致保持不变,这被称为“总处理性能”(TPP)。
尽管对芯片总体性能的限制非常重要,但政府意识到这仍然存在多个漏洞。例如,可以很容易设计出单个芯片性能低于阈值,但当大量芯片在高带宽互联时,整体系统轻松超过性能阈值。
因此,新增一个性能密度(TPP除以芯片面积)阈值的限制,防止芯片面积较小、绝对计算能力较低但计算密度、效率仍高的芯片出口。绝对限制性能密度为5.92,允许的密度为3.2。并设置多级的性能密度控制级别。
想要了解具体的内容的小伙伴可以看看这篇详细分析
晶圆战争:解读人工智能和半导体制造的最新限制
美国半导体限制政策
这里是@TopGeeky,持续输出计算机、科技、人工智能相关优质回答,如果觉得文章对你有用的话,不如点赞、收藏、关注三连;关注不迷路~
性能参数
其实最重要的还是想要知道这几款被阉割后的产品的性能到底如何。
HGX H20 拥有 96GB HBM3 记忆体以及 4.0 TB/s 的记忆体频宽,但有趣的部分在于这要比 H100 的 3.6 TB/s 高;HGX H20 使用的是 Hopper 架构。
另外,Hopper 架构的HGX H20 其NVLink 频宽可以达到900GB/s,这也比A800 的400GB/s 高许多,毕竟当初是因为A100 的频宽太高,所以才会出现A800 这东西。
搭配48GB GDDR6 with ECC 记忆体的L20 PCIe 采用AD102 晶片,但为了避开4800 TPP(Total Performance Processing)的限制。
NVIDIA 似乎将其阉割许多,毕竟它的TGP 只剩下275W,远低于GeForce RTX 4090的450W。至于 L2 PCIe 则是与 L20 PCIe 同属于 Ada Lovelace 架构,从规格来看,采用 AD104 晶片的可能性较高。
H20 L20 L2 性能参数
<hr/>从今年Nvidia推出的GPU来看,其实不难发现Nvidia已经悄悄针对大型语言模型(Large Language Model, LLM)进行优化,尤其是在AGI生成模型方面,特别关注的是这几款GPU的优化点就是未来的发展趋势。
都知道英伟达和AI迅猛发展相辅相成,所以未来的风口已经展现出来,按照这个趋势,大模型必定会改变我们每个人的生活,不论是入行的炼丹师还是其他行业的门外汉,都需要了解这个大模型,才不会错过时代的机遇
正好,「知乎知学堂」联合「AGI课堂」推出的「AI大模型公开课」这一免费公开课,一共两天的课程,圈内技术大佬授课,内容深入浅出,同时提供免费的大模型学习资料包。
你一定不要错过!
这门课最重要的一点是:不管是不是相关从业者都学到大模型对自身行业的影响,提前了解大模型,未来比其他人更进一步。
在悄悄说一句,添加讲师微信,可以领取更多隐藏学习资料哦~
<hr/>同样还知道需要与H100进行性能对比:
详情可以看: <a href="http://link.zhihu.com/?target=https%3A//www.semianalysis.com/p/nvidias-new-china-ai-chips-circumvent" class=" wrap external" target="_blank" rel="nofollow noreferrer">DYLAN PATEL做的性能分析
理论上,H100比H20快6.68倍。根据分析师Dylan Petal最近发表的博客文章,即使H20的实际利用率可以达到90%,但其在实际多卡互连环境中的性能仍然只接近H100的50%。
但是H20的优势也很明显,在大语言模型(LLM)推理方面比H100快20%以上。原因是H20在某些方面与明年发布的下一代超级AI芯片H200相似。
从传统计算的角度来看,H20相比H100有所降级,但从LLM推理来看,H20实际上会比H100快20%以上。
另外值得关注的是L20基于L40,L2基于L4,但这两种芯片在LLM推理和训练中并不常用。
L20 和 L2 均采用 PCIe 外形规格,并使用适合工作站和服务器的 PCIe 规范。与Hopper H800、A800等更高规格的机型相比,配置也更加精简
H100参数对比
谈谈看法
怎么说呢,去年美国指定的限制标准的漏洞已经被堵住,老黄也不可能违背美国的出口限制给偷偷私运高性能的GPU。芯片制裁肯定会一直持续下去,肯定不可能让我们这么容易就突破的,以往的任何一项技术美国都是搞过技术封锁的,只是在信息时代与我们最相关的就是电脑芯片,所以才会有这么大的关注度。
不会去谈全球化时代,什么技术封锁、产品出口等等这些手段和双标行为是否卑鄙。简单来说,国家与国家之间的关系则是有利合作,没有利益就会分道扬镳。这种封锁行为只能指望自己打破封锁,突破僵局而不是寄希望于他人的仁慈与否。
看回答有人说英伟达会走下坡路了,就我来看英伟达依旧占比最大的份额,占据近九成。英伟达、AMD、英特尔三家GPU占据全部,国内的寒武纪、景嘉微、海光信息等等都处启动阶段,相差过大。
还是指望国产自强吧。
<hr/>又到了自我吹捧阶段!Hi,这里是@TopGeeky,持续输出计算机、编程、科技、人工智能领域的优质回答(自封的)。
如果觉得我的回答和文章对你有帮助的话,不如点赞、收藏、关注三连;
关注不迷路~
<hr/>Hi,这里是 @TopGeeky专注于输出优质回答的“热爱流程序员”,可以看看我更多的回答,希望对您有所帮助:
我是如何面对迷茫 —— 学计算机的各位能告诉我你们的经历吗?
C++必不可少原因 —— 为什么AI算法工程师要求C++?
算法入行学习路线 —— 机器学习、数据科学 如何进阶成为大神?
通俗理解线性代数 —— 如何理解线性代数?
一份AI入行心得 —— 什么是人工智能?如何入行人工智能?
浅显易懂的科普文 —— 如何最简单、通俗地理解什么是机器学习?
机器学习资源路线 —— 如何自学机器学习Machine Learning?
对未来AI应用探索 —— 2023年后,AI 还有什么研究方向有前景? |
|