所谓的AI芯片到底指什么？

如今各类AI芯片比如自动驾驶、图像识别的专用AI芯片推陈出新，这些芯片与普通的电脑手机芯片有何区别？是单纯的提高了在某一人工智能领域的计算速度、植入了相关的算法还是怎样？

发表于 2025-4-9 12:36:06

单从字面上看，AI芯片就是“能有效运行AI应用的芯片”。“有效”的意思是，不仅功能上要有“智能”，性能也需要达标。用8051单片机跑一个人脸识别，功能上完全没问题，但如果识别一张人脸需要一整天的时间，那就失去了应用的意义，所以我们不能管8051单片机叫“AI芯片”。
而当代的通用CPU，或多或少都有向量加速指令集。有的CPU的扩展指令集非常复杂，甚至能直接计算一些常见的神经网络算子。仅仅用这种非常强悍的通用CPU，也能够保质保量的运行一些AI任务。然而习惯上，我们也不把它们归类于AI芯片之中。
所以如果较真的话，AI芯片应该定义为，“其主要功能是有效运行AI应用，并带有直接计算神经网络算子功能硬件电路的芯片”。在架构上，AI芯片多以片上系统（SoC）的形式出现。有的AI芯片上带有功能强大的CPU，以多芯片封装的形式与高速内存封装在一起，配合少量外围电路，就能制成常见的AI应用系统，例如智能摄像头等。有的AI芯片配备小型处理器，芯片系统以板卡的形式连接到服务器主板上，配合通用CPU进行AI应用的加速，构成“端侧AI服务器”。值得一提的是，目前的新款GPGPU，无论是家用游戏卡还是商用计算卡，都配备了高性能的AI专用加速IP核。AI专用加速IP核还被引入了高端手机芯片以及汽车主控芯片，为大模型在掌上、车上的应用铺平道路。

如今，智能科技已经推动我们走向万物智能（Pervasive Intelligence）时代，未来更需要对计算要求极高，需要专用芯片和高效的设计来支持。所以我们会发现不是只有半导体公司才能设计芯片。像英伟达、英特尔、AMD、高通、Meta、亚马逊、阿里巴巴、微软和谷歌这样的公司，目前都在积极投资开发自己的定制AI芯片，旨在支持他们的AI软件并满足具体应用的需求。十年前，几乎没有行业专家能预见到像Meta这样的社交媒体公司会涉足这一领域。
设计AI芯片有诸多的挑战。相比传统的片上系统，AI芯片，特别是通用大模型时代的AI芯片，其应用范围极为广阔，其输入不确定性激增。然而，传统的芯片由于位于整个信息生态的“底层”，其输入确定性很强，当下的设计方法学往往基于这些强确定性而建立，而在AI芯片时代受到了挑战。鉴于当前具有AI功能的芯片的巨大尺寸、规模和复杂性，通过模型检测实现完整的验证已不再可行。从长远来看，使用传统方法来验证这些数学功能不仅效率低下、耗时，也是不现实的。业界亟需替代传统全面验证连续迭代的新方法学。
形式化验证通过数学分析，允许一次性全面考虑整个硬件设计，根据一系列预定义的行为断言来验证设计。十年前，形式化验证需要使用高级断言，被视为一项仅限专家操作的技术。但现在情况已大为不同。新思科技VC Formal™等新一代形式化验证解决方案为开发团队带来所需的速度、容量和灵活性，助其验证复杂的SoC设计。该解决方案包含全面的分析和调试技术，可帮助团队通过新思科技Verdi®调试平台快速识别根本原因。VC Formal解决方案提供了一套广泛的形式化验证应用，其中包括集成了HECTOR™技术的VC Formal数据路径验证（DPV）应用。其中，HECTOR™技术已成功部署于许多要求苛刻的AI芯片项目，帮助多家创新芯片开发商和新兴AI/ML芯片公司收获累累硕果。
未来越来越多的计算密集型任务会依赖于先进的架构。这些架构不仅能够提供强大的计算能力，还能随着时间的推移优化，不断提升决策能力。万物智能时代，如今需要引导才能回答问题的虚拟助手，何时能发展成像钢铁侠中的JARVIS那样能够自己进化的智能助理呢？科技将为我们揭晓答案。

发表于 2025-4-9 12:49:05

上期文章：
AI芯片（上），自动驾驶里的“水浒卡”上一篇介绍自动驾驶的网红算法深度学习的时候，简单提到了深度学习与自动驾驶AI芯片门当户对的原因。但是在自动驾驶AI芯片家族里除了上提到的GPU，还有下文即将介绍的FPGA和ASIC。到底AI芯片家族里哪位“小伙”可以和深度学习相携到白头，共度余生。回答这个问题前，我们不得不先介绍一下“女嘉宾”的身世背景。

深度学习的目的是获得一个鲁棒性好、泛化能力强的深度学习模型。而这个深度学习模型是一个浑身长满参数的数学模型，这些参数决定了模型的高矮胖瘦。在没有学习前，这个模型犹如不识字的孩童，只知道嘤嘤啼哭。但当我们把一个巨大的数据集（犹如李永乐的三年高考、五年模拟）喂给模型时，模型的参数就开始基于这些数据集进行进化，直到找到最优的那组参数。这个时候的模型，像极了象牙塔毕业的骄子们。

从成千上万的变量中寻找基于给定数据集的一组最优参数的过程被称为训练，训练是一个艰苦的过程，需要通过不断的尝试，来获得最优的一组参数从而使模型实现收敛，而这个尝试就是在经历矩阵相乘，卷积运算等基本运算。特斯拉在其2021年的AI Day上发布的Dojo超级计算机，据称会是全球第五大计算机，正是用于训练其视觉自动驾驶算法。

基于训练好的模型结合实时获得的传感器数据，准确的、快速的输出感知、识别、预测结果被称为推理。伴随着决策也在AI化、博弈网络的引入，推理所需的算力自然也水涨船高。训练一般在云端或本地端，推理在车端。这样一来，谁的硬件资源可以更好地匹配以深度学习为代表的网红算法们在训练、推理过程所需的基本运算，谁就具有未来入赘豪门做女婿的潜质。

GPU就是将一些深度学习用到的基本运算进行了硬件化，比如MAC，通过大量硬件逻辑电路完成计算，因此可以大幅提升计算速度。但是芯片一旦设计完成，固化的逻辑电路便不可修改。对于图形计算领域来说，经过多年演进，算法基本固定的，且GPU本就为图像计算领域而生，因此硬件和算法可以实现完美的匹配。

但是对于自动驾驶领域来说，各种深度学习算法还在进化，每天都有可能产生新的更高效，更有效的深度学习模型。而不同模型在训练、推理过程对基本运算的依赖程度不同。半整型、整形、单精度浮点数、双精度浮点数、乘、加等都是可以排列组合。同时在训练过程、推理过程还存在随时切换深度学习模型的可能性。使用GPU，可以起到加速的作用，但无法发挥最大的潜质。因此业界渴望一种硬件可被重新编程来执行新类型计算的芯片，伴随着这样的呼声，FPGA登上了舞台。

三、FPGA

FPGA（Field Programmable Gate Array，现场可编程门阵列），是一种硬件可重新编程的半定制芯片。通过在硅片上预先设计具有可编程特性的集成电路，用户可根据具体需求将芯片编程成算法最期望的颜值。

可编程是FPGA最明显的标签，可编程过程包括三个步骤：（1）使用硬件描述语言生成描述硬件电路的配置文件；（2）采用配套FPGA专用的EDA软件将配置文件编译生成二进制位流数据；（3）将二进制位流数据烧录到芯片中实现所需的功能。

上文介绍的CPU、GPU遵循的是冯·诺依曼体系结构，指令要经过存储、译码、执行，共享内存在使用时要经历仲裁和缓存。而FPGA每个逻辑单元的功能在重编程时就已经确定，因此无须指令。而FPGA的内存专属于各个控制逻辑，无需不必要的仲裁和缓存。得益于体系架构的优势，先天具有更高能效的特长。

体系结构不同带来的另外一个优势就是，FPGA具有极低的延迟，它无须依赖通用OS，也无须通过总线即可完成通讯，拥有流水线和数据并行（GPU由于流水线深度受限，只能做到数据并行），延迟在微秒级别，这令拥有毫秒级别延迟的高质量CPU也汗颜。对于自动驾驶多传感器微秒级的时间同步精度要求来说，FPGA显然更胜一筹。

一般来说，FPGA涉及到三大核心技术：（1）结构布局，内部布局细腻程度，影响芯片的运行效率，全球主要分为两种流派：逻辑和路由都是固定的和逻辑和路由是可以互换的；（2）接口支持，决定了与外围设备兼容性，常用的外围设备包括CPU、GPU、DDR、ADC等；（3）EDA能力，EDA工具是FPGA可编程的关键，也是目前FPGA芯片设计的关键门槛，是FPGA厂商竞争的关键。

抛弃场景谈优劣势，是充钱玩家的做法。FPGA的编程灵活性，特别适合算法不断更新的领域，不仅可以节省3~12个月的流片时间，还能避免一次性工程费用。但是灵活性的代价就是牺牲了一定程度的处理效率，峰值以及平均性能均远低于GPU。基于FPGA编程在今天也是一件门槛非常高的事情。

基于以上优缺点，FPGA早期一直被用作专用芯片的小批量逻辑验证替代品，目前在数据中心的核心计算单元位置上已经站稳脚跟。且随着工艺水平不断突破，技术不断进步，FPGA作为自动驾驶AI主控芯片的潜质也已经凸显。目前FPGA领域呈现双寡头的垄断格局。Xilinx和Intel几乎垄断90%的全球市场。自动驾驶领域，FPGA目前主要应用在相机和激光雷达领域。

四、ASIC

ASIC（Application Specific Integrated Circuit，应用型专用集成电路），是针对某种特定功能需求，设计、开发的专用类型芯片。这种针对固定算法的专用芯片，可以实现最佳计算能力、最优计算效率。

作为一种定制的专用类型芯片，ASIC一个完整的定制流程大致包括：系统设计，详细设计，寄存器传输级编码，逻辑综合、逻辑对等，前仿真，布局布线，后仿真，流片等。而对于FPGA来说，在前仿真没有问题后即可在FPGA上进行烧录，进行系统级验证。因此可以可以节省一次后仿真和流片2个步骤。而这两个步骤至少需要六周，而流片一次成功的概率又比较低，多次失败也是常有之事。

与GPU/FPGA相比，基于某一算法定制的ASIC芯片可以实现体积更小，功耗更低，算力消耗更小。在大批量供货阶段，ASIC芯片还具有无可比拟的价格优势。但是高定制化芯片涉及晶圆生产、封装、测试等完整流程，开发周期较长，存在上市即落后的风险，因此特别考验公司的前瞻设计能力。而ASIC对算法的高依赖性，也并不适合算法频繁更新的领域。

ASIC芯片有个“挖矿一哥”的美誉，为挖矿量身定制的ASIC芯片已经成功将CPU、GPA、FPGA芯片从挖矿界淘汰掉。自动驾驶领域由于AI算法还在不断进化，应用的案例不多。但类比挖矿领域，都是依赖底层芯片进行大规模的并行计算，ASIC芯片必将在自动驾驶领域发挥得天独厚的优势。

五、其他

（1）DSP（Digital Signal Processor，数字信号处理器），一种采用程序存储器和数据存储器分开的哈佛架构微处理器。DSP从模数转换器获得数字信号，通过内部算法处理后输出给模数转换器生成模拟信号。通过硬件上专门的乘数累加器，基于单指令多数据流操作的特殊指令集，可以实现数字信号快速的并行处理。目前广泛应用在音视频压缩、编解码，语音识别和处理，数字图像处理和雷达应用等。

（2）MPU（Micro Processor Unit，微处理器），一种高度集成的通用结构处理器。相比于MCU，MPU具有更高的运算性能和速度，去除了不必要的外设。随着MCU的运算能力不断提升，MCU和MPU的界限也在不断消失。

团队明星

“抱团取火”是现在自动驾驶AI芯片的潮流，通过将上文介绍的各种类型的芯片排列组合，可满足自动驾驶上下游绝大多数场景的需求。芯片“抱团取火”的更专业术语便是SOC（System On Chip，片上系统）,通过将关键部件集成在单一芯片上，从而在片上构成一个多核异构的微小型系统。

SOC已经是自动驾驶AI芯片的主旋律，安霸500e TOPS的CV3，NVDIA 1000 TOPS的Atlan，高通700 TOPS的 Napdragon Ride，无不是SOC领域的顶级身材。SOC的构成，在数学上虽然可以有很多种排列组合，但世面上比较主流的架构有三种。以NVIDA Orin为代表的CPU+GPU+ASIC架构，以Mobileye Eye Q5为代表的CPU+ASIC架构和以Waymo自研芯片代表的CPU+FPGA架构。

下图汇总了部分已量产和即将量产车型上搭载的SOC类型的自动驾驶AI芯片情况。包括被众多主机厂簇拥着即将登基的NVDIA Orin，也包括依旧在主机厂衙门前努力游说的黑芝麻智能的A1000 Pro。下文将挑选三种架构下的一款典型产品做简要介绍。

NVIDA的Orin作为一款2022年上半年量产的自动驾驶AI芯片，是已经获得定点主机厂最多的一款芯片，采用CPU+GPU+ASIC架构。内部运算芯片部分主要包括CPU、GPU和ASCI加速器三大模块。CPU方面选用了12个Cortex-A78核，可以提供230K DMIPS的CPU运算能力。GPU方面提供了2048个CUDA核以及64个Tensor核。ASIC加速器包括DLA（Deep Learning Accelerator，深度学习加速器）、PVA（Programmable Vision Accelerator，可编程视觉加速器）、ISP、硬件编解码等模块。Orin的AI算力绝大部分来自DLA模块，加上GPU部分，整个芯片可提供高达230TOPS的整数运算算力以及4.1TFLOPS的浮点数运算能力。

在Mobileye将BWM亲手送入竞争对手高通的怀抱中的时候，业内唱衰Mobileye的声音就不绝于耳。在国内仅有极氪001为其站台的情况下，变革与破局或许是曾经辅助驾驶领域霸主的2022年的主题词。EyeQ5作为一款2021年下半年量产的自动驾驶AI芯片，面对强敌环测，显然是生不逢时，但未到刺刀拼杀的最后关头，一切纸面参数都不足以成为打到老虎的那三碗酒。。

EyeQ5采用CPU+ASIC的架构，内部运算部分主要包括CPU和ASIC加速器两部分。CPU选用了一个8核多线程的核，可提供52K DMIPS的运算能力。ASIC加速器包括CVP（Computer Vision Processors，计算机视觉处理器），DLA和MA（Multithreaded Accelerator，多线程加速器)，其中18颗CVP是Mobileye的下一代针对传统计算机视觉算法设计的ASIC芯片。芯片整体的AI算力设计只有24TOPS。

CPU+FPGA的SOC架构方案适合算法不断更新场景，因此适合Waymo这种自产自销，且算法更新频率特别快的自动驾驶公司。关于Waymo自研芯片的信息不多，所能了解到的就是CPU选用了Intel Xeon 12核以上配置，FPGA选用了Altera的Arria系列。

小结

在2022年自动驾驶AI芯片“心动女生”专场投票中，NVDIA Orin获得了中国公子哥最多的投票。笔者喜忧参半，喜的是国内厂商终于找到一个可以施展拳脚的舞台，打造具有中国特色的自动驾驶系统。忧的是卡脖子的AI芯片供应商仅是从美丽国的一个洲换到另外一个洲。

最近，和国外芯片巨头国内总代相聊甚欢，他在用心介绍产品的间隙，不断重复着一个观点：“我是一个中国人，我一直期望国内厂商把国外技术消化吸收了之后，自己去研发，最终取而代之。但在目前自动驾驶玩家们都期望技术尽快上车的背景下，NVDIA提供的完善生态，契合当前主机厂、自动驾驶公司快速打造闪亮卖点的需求。”

如果算力是自动驾驶AI芯片企业冰面上的比拼参数，那么软件生态则是冰面下的竞争壁垒。华丽的参数下，如果没有全栈易用的工具链，很容易将焦躁的开发团队拒之门外。而生态的建设，又需要产业链上下游沉下心、通力合作，不断打磨。

当然，自动驾驶公司对算力的追逐可能也是内功不足的表现，前期测试验证、Demo演示时使用的消费级桌面X86 CPU+消费级显卡，无须关心运算能力的大小。而在真正落地切到以ARM CPU为主的SOC时，研发团队不知道系统可以优化多少，不知道我对运算能力的需求，保守的做法可能就是选用市面上最强的SOC，预埋最强的硬件，毕竟自动驾驶还是一个没有断奶，需要持续喂养的娃娃。

发表于 2025-4-9 13:00:28

进入公司AI产业快有3个年头，AI芯片和传统芯片，甚至AI芯片和GPU，还有AI芯片的发展历史，面向未来场景的挑战都有很多话题，下面我们一起来聊聊AI芯片和传统芯片的区别哈。
<hr/>芯片是半导体元件产品的统称，而集成电路，缩写是IC，就是将电路小型化，通过电子学和光学，将电路制造在半导体晶圆上面。
我们会分为4个小点进行介绍AI芯片前言解读。首先是AI芯片从CPU、GPU、到XPU的发展情况总体介绍，接着是AI芯片都有哪些系统架构，基于不同的系统架构，又引申出不同的AI芯片。第三部分来整体看看，AI芯片的产业链情况，了解AI芯片从设计到应用的一个分部。最后自然是了解AI芯片未来的发展趋势，展望未来。

AI芯片发展概述
首先我们说下到底什么是AI芯片，广义上讲，只要能够运行人工智能算法的芯片都叫作AI芯片。但是通常意义上的AI芯片，指的是针对AI算法做了特殊加速设计的芯片，当前阶段的AI算法一般以深度学习算法为主，也可以包括其它机器学习算法。

下面我们主要回顾下近20年以来AI芯片发展。在90年代和20世纪初，受制于算法、数据量等因素制约，这个阶段AI芯片并没有太多市场需求，通用CPU即可满足AI算法和应用的需要。
从2006年开始，Hinton在Science杂志上发表了使用神经网络降低数据维度的文章，为深度学习在大规模数据中可学习带来研究理论基础。同年，英伟达推出了CUDA，使开发者可以在GPU上面方便地进行编程。
在这之后的5年，人们发现GPU并行计算能力，恰好适应AI算法和数据并行计算的需求，开始逐渐地尝试使用GPU来运行AI算法和进行验证。
进入2012年后，云计算和移动设备广泛地发展起来，大量图像数据和用户数据积累，同年Google使用1.6万个GPU核组成的并行计算平台Google Brain训练AI模型，在语音和图像识别等领域获得了巨大成功。同年Alex利用2块GPU的并行能力，实现的AlexNet，将图像分类错误率从26％降低到15％，碾压第二名的分类性能，一举夺得ImageNet比赛冠军。
产业和学术对算力的需求是永无止尽的，随着AI对计算的需求不断增长和AI产业的爆发，2014年英伟达发布了首个为深度学习设计的GPU架构Pascal开始。到了2016年，Google公布了第一代ASIC芯片TPU，到2021年发展到了第四代。2017年,华为第一个将NPU集成到手机上，使用AI算法增强手机拍照能力。在2018年，华为昇腾910芯片ASIC架构细节公布，实现了7nm EUV工艺、32核达芬奇架构，FP16算力达到256 Tera-FLOPS。
<hr/>AI芯片系统架构
下面是这个问题的回答核心啦。
传统CPU结构中，除了数据运算，还需要执行数据的存储与读取、指令分析、分支跳转等命令。AI算法通常需要对海量数据进行处理，使用CPU执行算法，将会花费大量的时间，在数据指令的读取分析上，因此计算效率非常低。

随着AI产业的发展，业界出现了4种AI芯片架构。以冯·诺依曼传统计算架构为基础，用于加速硬件计算能力为主，有GPU、FPGA、ASIC 3种类型为代表，另外是颠覆冯·诺依曼架构，采用类脑神经结构独立设计，来提升计算能力。下面我们详细展开4种不同类型的架构。

第一种是GPU，通用的图像处理单元。GPU采用SIMD单指令多数据流的方式，也就是一条指令操作多个数据，拥有数量众多的计算单元和超长的图形图像处理流水线，刚发明的时候主要处理图像领域的并行加速运算，由于GPU内部，大部分的晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度远高于CPU，并拥有了更加强大的浮点运算能力，从而可以缓解深度学习算法的训练难题，释放AI潜能，因此广泛使用在深度学习算法领域。值得注意的一点是，GPU缺乏复杂的运算逻辑单元，必须由CPU进行调度。

英伟达作为GPU巨头，占据了七成的GPU和AI市场份额。在近几年的GTC大会上，CEO黄仁勋满嘴都是AI，可见AI对GPU发展的重要性不言而喻。

第二种是FPGA，通俗地理解就是，可以把硬件设计重复烧写在它的可编程存储器里面，使FPGA芯片可以执行不同的硬件设计和功能，所以被叫做「现场可编程逻辑阵列」。FPGA将指令锁定在硬件架构上，然后使用硬件指令流运行数据，简单理解就是将AI的计算架构用硬件电路实现出来，然后持续的将数据流输入系统，并完成计算。与GPU不同的是，FPGA可以同时拥有硬件流水线并行和数据并行处理能力，适用于以硬件流水线方式处理数据流，因此非常适用于AI推理阶段，相对于CPU与GPU有明显的性能或者能耗优势。

目前使用FPGA用于设计AI芯片国内有深鉴科技、微软Catapult项目。其中深鉴科技在2018年，以3亿美元的价格卖给FPGA巨头赛灵思。
由于FPGA编程难度大，对开发者要求高，于是出现了ASIC，专用集成电路，主要是实现AI特定算法，要求定制的芯片。所谓定制，那就是专门为AI算法，设计出来的架构，可以有助于提高芯片性能和功耗比，缺点是电路设计定制，导致相对开发周期长，不能扩展以外，好处就是在功耗、可靠性、芯片体积、性能等方面都有巨大的优势。

自从2016年Google发布基于ASIC架构的第一代TPU后，华为的昇腾系列芯片、寒武纪、比特大陆、地平线等厂商纷纷入局，即使AI算法发展迅猛，但是基于ASIC的AI芯片仍然是今天的主流。
有人说，真正的人工智能芯片，未来发展的方向，会不会是类脑芯片呢？最后来谈一下，类脑芯片展，类脑芯片直接基于神经形态架构设计，用于模拟人脑功能进行感知方式、行为方式和思维方式的计算。但是研发难度巨大。

2014年，IBM推出第二代TrueNorth芯片，采用28nm工艺技术，里面包括了54亿个晶体管和 4096个处理核，相当于100万个可编程神经元，以及2.56亿个可编程突触，芯片的工作方式类似于人脑的神经元和突触之间的协同。

<hr/>AI芯片的产业链
现在聊到AI芯片，肯定离不开AI芯片在产业链中的位置。那从芯片的整体产业环节来看，最上游的是芯片设计，中游是制造和封测，最后是下游的系统集成及应用。但是具体是怎么分工的吗？(聪)
感谢聪聪，我们来看一下这个图，AI芯片产业链环节中，我们这里以华为昇腾AI产业为例。首先是上游，昇腾910芯片采用的是ASIC专用集成电路，基于达芬奇架构来实现的，而达芬奇架构这款IP呢，则是通过华为海思设计的，所以海思是达芬奇这款IP的设计商。
设计完之后，就到中游，分别是AI芯片的晶圆制造和封装测试，但晶圆不仅是在封装时测试，制造后会有一次测试，封装后再进行一次。而现在大部分芯片的制造都依赖于台湾的TSMC，就是大名鼎鼎的台积电，还有中芯国际SIMC等芯片制造商。
最后是AI产业的下游，下游主要为系统集成及应用为主，华为昇腾AI产业作为AI系统集的主要集成商提供昇腾Atlas服务器，然后联合开发商，也就是俗称的ISV，来提供上层的AI解决方案。

<hr/>AI芯片未来发展趋势
最后就是AI芯片的发展趋势啦，无论是华为昇腾产品的达芬奇架构、英伟达的Tensor Core、还是Google，深度学习需要海量数据进行计算，内存带宽的制约，已经成为整个系统的性能瓶颈。第二个就是海量内存和计算单元，访问频繁切换，导致整体功耗很难降下去。最后便是随着AI产业的快速变化，硬件如何适配算法是个难题。

我们不妨来预测一下AI芯片的4大发展趋势。

未来10年是加速计算架构变革的新十年。在计算存储一体化方面，也就是把计算单元和存储单元放在一起，使得AI系统的计算和数据吞吐量增大，还能显著地降低功耗。会不会出现一种新型非易失性存储器件，就是在存储阵列里面加上AI计算功能，从而节省数据搬移操作呢？现在硬件计算能力大于数据读取和访问性能，当计算单元不在是瓶颈，如何减少存储器的访问延时，将会成为下一个研究方向。

通常，离计算越近的存储器速度越快，每字节的成本也越高，同时容量也越受限，因此新型的存储结构也将应运而生。

第二个趋势就是，稀疏化计算。随着千亿、到万亿网络模型提出，模型越来越大，但实际不是每个神经元，都能有效激活，这个时候稀疏计算，可以高效减少无用能效。特别是在推荐场景和图神经网络的应用，稀疏已经成为常态。
例如，哈佛大学就该问题提出了优化的五级流水线结构，在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断，如果发现这是一个稀疏节点，则触发 SKIP信号，避免乘法运算的功耗，以达到减少无用功耗的目的。

第三个趋势是支持更加复杂的AI算子。在标准的SIMD基础上，CNN的特殊结构复用，可以减少总线的数据通讯，Transformer结构对大数据在计算和存储之间切换，或者是在NLP和语音领域经常需要支持的动态shape，都需要合理地分解、映射这些不同复杂结构的算子，到有效的硬件上成为了一个值得研究的方向。

最后就是更快的推理时延和存储位宽。随着苹果、高通、华为都在手机芯片SoC上面推出AI推理硬件IP，近年来在手机SoC上，又引入可学习功能。未来如何在手机SoC上执行更快是业界很关注的一个点，包括经常看视频的抖音、bilibili，都需要对视频进行AI编解码，基于ISP进行AI影像处理。另外在理论计算领域，神经网络计算的位宽从32bit到16bit，出现了混合精度到目前8bit，甚至更低的比特数，都开始慢慢进入实践领域。

<hr/>AI芯片，最后决定成败的因素会什么呢？我们应该选择，英伟达的GPU的硬件架构、华为达芬奇架构、Google TPU的脉动阵列架构呢？
总的来说，在ZOMI的观点来看，芯片架构的选择应该服务于整个芯片项目的成功，是很多因素博弈的结果。英伟达今天能在AI领域占据着头部市场，是归功于它的底层硬件架构，还是它完善的软硬件生态呢？这个问题呀，我觉得大家应该看得比我清楚。

发表于 2025-4-9 13:13:34

泻药。
在我看来，任何号称”具备AI能力“的芯片，都是文宣，都不诚实。AI是个如此巨大浩瀚的话题，怎么可能用一颗芯片所具备的功能来概括？
其实现在企业和工业，特别是做IC或者IP的供应商，大部分都还是比较诚实的，他们在宣传自己的芯片的时候，基本上都会强调自己芯片的某个具体的应用场景或者某个特别的行业。
回到题主的问题：
如今各类AI芯片比如自动驾驶、图像识别的专用AI芯片推陈出新，这些芯片与普通的电脑手机芯片有何区别？是单纯的提高了在某一人工智能领域的计算速度、植入了相关的算法还是怎样？
个人觉得，目前具备一定话题性的&#34;AI 芯片”，起码要具备如下两个特点:

不完全依赖于云服务的本地计算能力，本地算法，独立做出判断--简单说就是至少有一部分计算力是在本地完成的，而不是在云端做完传输到本地；这对时延敏感的应用非常重要。比如自动驾驶类。
具有一定程度的并行计算能力--至于计算力多大才算是足够，这个需要结合具体应用以及PPA要求去做benchmark--比如做语音识别和视觉处理就是两个完全不同的级别，但是你不能说前者就不够&#34;AI&#34;。

至于是否要采用NN（神经网络）的架构--这个并不一定。比如在图像处理领域，目前有已经相当成熟的算法（比如对于双目影像的处理粒子滤波，光流的逐帧对比相关算法等等），并不需要用神经网络去处理--例如Kinect, Realsense这些已经相当成熟的产品，使用的也并非神经网络，在ARM处理器上跑效率也不算低。

用各种NN去做处理，正是这几年才火起来的话题，还在探索当中。特别是NN的网络行为不可预知行性，反而阻碍了它的进一步成熟。神经网络目前是实践走到了理论前面。人类对于自己不能完全解释的事情总会抱有疑虑。

总的来说，在edge端的NN芯片，目前还没有看到什么特别成功的案例--这个主要还是受制于芯片的天然的PPA要求。

发表于 2025-4-9 13:24:39

简单来说，图像识别，自动驾驶需要使用深度学习算法。
深度学习，也就是各种神经网络，需要大量重复进行矩阵乘法，激活函数如sigmoid tanh等的计算。
通用cpu，做这些计算的性价比是很低的。就像你小时候可能听说的那样，cpu只会做加法，其他的计算都是用加法费劲地拼出来的。
AI芯片采用fpga或者asic方案，直接把常用的计算函数实现硬件化，做成一坨门电路或者查询表，速度快很多很多倍，功耗却低了。
以上。

所谓的AI芯片到底指什么？

本周热门