AI芯片科普:AI推理芯片和AI训练芯片的区别
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
什么是AI推理?
AI推理的本质是使用已经训练好的模型对新的、未见过的数据进行前向传播计算,从而得到预测结果。这个过程可以深度拆解为:
-
计算模式的根本不同:与训练需要大量反向传播和梯度计算(涉及高精度FP32、FP64甚至更低精度格式)不同,推理的核心是前向传播。这意味着计算图是固定的,数据流是单向的。这允许硬件进行极致的优化,例如:
-
算子融合:将多个连续的神经网络层(如Conv-BN-ReLU)融合为一个单一的、更高效的核函数,大幅减少对片外内存的访问,这是推理延迟和功耗的主要瓶颈。
-
静态调度:由于计算图在部署前已知,编译器可以预先制定最优的执行计划,消除运行时动态调度的开销。
-
精度要求的降低:训练需要高精度来保证梯度下降的稳定性和方向正确。而推理对数值精度要求宽松得多,INT8、INT4甚至是二值化(Binary/ Ternary)网络被广泛使用。降低精度带来两大核心优势:
-
算力倍增:同一硬件下,INT8的算力(TOPS)通常是FP16的2倍,是FP32的4倍。
-
内存带宽压力骤减:权重和激活值的数据量成倍减少,使得内存带宽不再是严重瓶颈,从而能更快地喂饱计算单元。
-
工作负载的多样性:
-
云端推理:高吞吐量、中等延迟。处理来自成千上万用户的海量请求,批处理是提高利用率的关键。芯片设计重点在于算力密度 和互联带宽。
-
边缘推理:低延迟、低功耗。在摄像头、手机、汽车等设备上实时处理,对能效比的要求极高。芯片设计重点在于功耗效率 和片上内存容量。
AI芯片类型分类
就用途而言,AI芯片可以分为两大类:AI训练芯片和AI推理芯片。
就芯片架构而言,AI芯片可以分为两大类:GPU和ASIC。可以看我之前的文章《GPU和ASIC在AI上的优劣势比较》。
除了用途(训练/推理)和架构(GPU/ASIC)的分类,从计算架构上看,AI芯片可以分为:
-
SIMT架构:以NVIDIA GPU为代表。单指令多线程,非常适合处理高度并行、同构的计算任务。其强大的可编程性和通用性是其统治训练市场的基石。
-
DSA架构:以Google TPU为代表。领域专用架构,为特定的计算模式(如矩阵乘、卷积)定制硬件单元。其效率极高,但灵活性不如GPU。
-
数据流架构:以Graphcore的IPU为代表。将整个计算图映射到芯片上,让数据在处理器之间流动,减少对全局内存的访问,非常适合图状计算模型。
AI训练芯片
AI训练市场
AI训练芯片市场,几乎没有几家竞争者,英伟达一家就占据了AI训练市场90%以上份额,其Blackwell架构支持1.8万亿参数模型训练,且NVLink 6技术实现72卡集群无缝互联。
华为和超微(AMD)则是英伟达之外,唯一在AI训练市场上有较大市占的厂商,但市占和英伟达是处于不同的量级,不能拿来比较。英特尔(Intel)的Gaudi,则在市场上几乎没有能见度,市占不到1%。
-
AMD: MI300X在硬件指标上已接近甚至部分超越H100,但其ROCm 软件生态仍是追赶的关键短板。
-
华为: 昇腾910芯片搭配CANN 软件栈,在国内市场依托政策导向形成替代方案,但在全球市场的软件生态和先进制程供应上面临挑战。
-
英特尔: Gaudi 3 强调性价比,但在绝对性能和生态成熟度上仍与头部玩家有较大差距。
AI推理芯片主要是ASIC芯片
AI推理由于牵涉到各家厂商设计时的独特算法,必需定制化。而定制化芯片其实就是ASIC芯片,因此AI推理芯片主要是ASIC芯片。
AI推理芯片市场
根据VerifiedMarketResearch的数据显示,2023年AI推理芯片市场规模为158亿美元,预计到2030年将达到906亿美元,在2024-2030年预测期内的复合年增长率为22.6%。
ASIC的主要优势
适用于推理
前面提过:AI推理由于牵涉到各家厂商设计时的独特算法,必需定制化;才能发挥算法的效率和各家厂商独门的功能,以符合自家的特殊需求。
这种定制化的芯片必需ASIC芯片才能办到,这也是为何在大量采购通用型的GPU之外,各家厂商都需要自己另行开发属于自己的ASIC芯片,才能发挥自己所需要的AI推理的功能的原因。
去除弹性使速度加快
“固定性”是ASIC的核心优势——为单一任务定制硬件架构:可以直接将推理算法的运算逻辑、数据路径“固化”到芯片中,去掉所有无关的通用运算单元(如GPU中用于训练的动态调度模块、通用内存控制器),让硬件资源100%服务于推理计算。
成本效率
推理场景对“能源效率比”(每瓦功耗能提供的算力)和“成本”的敏感度远高于训练,而ASIC在这两方面具有碾压性优势。
能源效率比方面,Google TPU v5e的能源效率比是英伟达H100的3倍。
成本方面,AWS的Trainium 2在推理任务中性价比比H100高30%-40%,Google的TPUv5、亚马逊的Trainium2单位算力成本仅为英伟达H100的70%和60%。
一个大模型可能只需要几十到几百张训练芯片(如GPU),但推理阶段可能需要数万甚至数十万张芯片(例如ChatGPT的推理集群规模是训练集群的10倍以上)。因此ASIC的定制化设计可以降低单芯片的成本。
ASIC的主要缺点
芯片设计太耗时
ASIC的设计周期长达1-2年,而AI模型迭代速度极快(如大模型从GPT-3到GPT-4仅用1年)。若ASIC设计时锚定的模型过时(如Transformer取代CNN),芯片可能直接失效。
ASIC较不适用于AI训练
同理,ASIC在训练任务的能力就相对弱一点。因为训练任务算法迭代快,需求灵活。ASIC若用于训练,算法更新时,芯片面临失效风险,性价比低很多。
市场上主要的推理芯片
那些著名厂商开发了推理芯片?
几乎你所熟知的每一家世界知名的科技大厂,包括苹果(Apple)、亚马逊(Amazon)、谷歌(Alphabet/Google)、Meta、微软(Microsoft)、华为、腾讯、字节跳动、阿里巴巴、OpenAI,都已部署、正在部署、或是正在委托芯片设计商开发推理芯片。
多为代工设计
在ASIC市场上,各家AI大厂多为软件企业,不可能有大量的芯片设计人才,因此必须把芯片设计外包出去。
目前博通(Broadcom)以55%~60%的份额位居第一,迈威尔(Marvell)以13%~15%的份额位居第二。
已经完成部署的著名推理芯片
以下就是已经完成部署的著名推理芯片的列表,并不包括正在设计中的推理芯片。
其它厂商
请注意:英伟达(NVIDIA)、超微(AMD)和英特尔(Intel)的AI芯片也能拿来用于推理,只是效果不像把他们拿来用于训练般地突出。
另外,还有一些小型的初创公司,包括SambaNova、Cerebras Systems、Graphcore、Groq、Tenstorrent、Hailo、Mythic,KAIST的C-Transformer等。也都推出了AI芯片也能拿来用于推理,但其实出货量都很小,不能和科技巨擘自行设计的AI推理芯片相比。
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
参考文献
人工智能芯片与自动驾驶

浙公网安备 33010602011771号