GDDR与HBM
1.背景
随着 AI 训练、实时渲染、科学计算对内存带宽需求呈指数级增长,传统 DDR 体系已难以满足 GPU、FPGA、ASIC 的算力需求。HBM 与 GDDR 分别在“极致性能”与“成本可控”两端形成互补:
HBM 面向 AI/HPC 场景,单堆栈带宽已突破 2 TB/s,功耗效率提升 3× 以上;
GDDR 面向游戏、工作站及边缘 AI,单卡带宽 1 TB/s 量级,成本仅为 HBM 的 1/3–1/5。
理解两者差异,有助于在芯片、板级及系统层面做出最优技术-商业权衡。
2. GDDR 技术详解
2.1 工作原理
GDDR 基于双倍数据速率(DDR)技术,在时钟上升沿与下降沿同时采样数据,实现等效频率翻倍。芯片采用 2D BGA 封装,通过 32-bit 单通道与 GPU 通信;系统级方案需 8–16 颗并联,形成 256–512-bit 总线。为弥补位宽不足,GDDR6X 引入 PAM4 信号调制,单线传输 2 bit/符号,数据速率提升至 21 Gb/s。
2.2 技术架构
CPU与GPU等逻辑芯片与记忆体芯片,都是通过引线连接到下方的基板,再通过基板实现逻辑运算与存储之间的通信。

但如果芯片变得更多,除了导致占用印刷电路板上大量空间外,还意味着必须铺设很长的电路才能到达GPU,也需要更大的变压器。比如AMD的显卡布局,GDDR使用了大量空间以及电路铺设很长,才能触及中间的GPU。

2.3 性能特点
|
指标 |
GDDR6 |
GDDR6X |
GDDR7* |
GDDR8* |
|
单芯片带宽 |
64 GB/s |
84 GB/s |
96 GB/s |
128 GB/s |
|
系统带宽示例 |
768 GB/s (12 颗) |
1008 GB/s (12 颗) |
1152 GB/s (12 颗) |
1536 GB/s (12 颗) |
|
数据速率 |
14–16 Gb/s |
19–21 Gb/s |
24 Gb/s |
32 Gb/s |
|
功耗效率 |
15 pJ/bit |
14 pJ/bit |
13 pJ/bit |
12 pJ/bit |
|
封装面积 |
12 mm × 14 mm/颗 |
同上 |
同上 |
同上 |
|
延迟 |
50 ns(GPU-to-GDDR) |
同上 |
同上 |
同上 |
注:GDDR7/8 为行业预测值,最终规格以 JEDEC 发布为准。
3. HBM 技术详解
3.1 工作原理
人工智能(AI)和高性能计算(HPC)工作负载需要处理海量张量数据。逻辑单元的集成密度和时钟频率的提升速度远快于片外数据传输能力,导致算术逻辑单元(ALU)在等待数据时处于空闲状态。传统的DDR和GDDR内存技术试图通过提高时钟频率来弥补这一差距,但更高的频率需要复杂的端接设计、严格的阻抗控制,并带来更高的功耗。而传统的DDR或GDDR内存由于总线位宽较窄且依赖高时钟频率,已难以满足需求。高带宽内存(HBM)通过大幅拓宽数据通道——例如HBM3的位宽高达1024位,并将多个DRAM芯片垂直堆叠,可以让存储更靠近GPU,从而大大缩短电路长度,更高速且耗能低。
3.2 技术架构

HBM技术的基础在于通过硅通孔(Through-Silicon Vias, TSV)实现的3D堆叠DRAM。TSV是一种垂直互连结构,可将信号穿过硅芯片内部。每个HBM堆栈由多个DRAM层堆叠在一块逻辑裸片(logic die)之上构成,该逻辑裸片负责管理刷新、训练和数据调度等任务。整个堆栈通过硅中介层(silicon interposer)与GPU相连。

将芯片都堆叠起来之后,可以节省大量面积,芯片接触面也变得更宽。所以跟传统内存技术相比,HBM的频宽更高、功耗更低、尺寸更小。
3.3 封装
从2.5D到3D封装,就是更进一步把存储芯片堆叠在GPU上面。一般常见的有 2 / 4 / 6 / 8 层四种立体堆疊方式,目前最多堆疊到 12 层。HBM厂商做出HBM之后,还需要先进封装技术把HBM与其他芯片封装在一起。这就要用到CoWos (Chip-on-Wafer-on-Substrate,晶圆上芯片-基板)技术。

CoWoS技术分为CoW(Chip-on-Wafer)+ WoS(Wafer-on-Substrate)。CoW指的是通过硅穿孔技术,把裸芯片与硅中介层连接在一起。WoS则是把堆叠好的芯片与硅中介层连接到基板的过程。

HBM接口极其宽广——每个堆栈拥有超过1000个I/O连接——无法使用传统的有机基板进行布线,因为走线长度会引入延迟、信号损耗和串扰。在CoWoS平台上,显著缩短了互连距离,提升了信号完整性,并实现了计算单元与内存之间每秒数太比特(Tb/s)级别的通信带宽。
3.4 性能特点
|
指标 |
HBM3 |
HBM3E |
HBM4 |
|
单堆栈带宽 |
819 GB/s |
1.2 TB/s |
2.0 TB/s |
|
总线宽度 |
1024-bit |
1024-bit |
2048-bit |
|
数据速率 |
6.4 Gb/s/pin |
9.6 Gb/s/pin |
12 Gb/s/pin |
|
单堆栈容量 |
24 GB |
36 GB |
64 GB |
|
功耗效率 |
8 pJ/bit |
7 pJ/bit |
6 pJ/bit |
|
封装面积 |
7 mm × 11 mm |
同上 |
同上 |
|
延迟 |
20 ns(GPU-to-HBM) |
同上 |
同上 |
4. HBM 与 GDDR 对比分析
|
|
HBM系列 |
GDDR系列 |
|
基本分类 |
高带宽内存 |
图形专用双倍数据速率内存 |
|
核心架构 |
多层DRAM芯片垂直堆叠 通过硅通孔(TSV)连接各层 超宽位宽:1024-bit甚至更高 |
平面封装:传统的2D布局 分立封装:独立的内存芯片焊接在PCB上 相对窄的位宽:32-bit per chip |
|
带宽对比 |
HBM3:600+ GB/s per stack |
GDDR6:单芯片只有48-64 GB/s(16Gbps × 32bit) |
|
功耗效率 |
位宽大、频率相对低 → 更省电 |
位宽小、频率极高 → 功耗较高 |
|
物理空间 |
垂直堆叠,占用PCB面积小 |
平面分布,需要较大PCB面积 |
|
成本 |
制造工艺复杂(TSV、Interposer) 成本是GDDR的3-5倍 |
成熟的制造工艺,供应链完善 成本相对低 |
|
性能 |
物理距离近,延迟更低 |
PCB走线较长,延迟稍高 |
|
应用场景 |
数据中心AI训练(H100、MI300等) 高性能计算(超算) 专业计算卡 |
游戏GPU(RTX 4090、RX 7900 XTX等) 消费级AI推理 工作站图形卡 |
5. 技术发展趋势与展望
5.1 HBM 演进
带宽:HBM4 预计 2026 年量产,单堆栈 2 TB/s,2048-bit 总线,12 Gb/s/pin。
容量:16 层 1z nm DRAM,单堆栈 64 GB,支持 8-Hi 堆栈。
封装:向 3D SoIC + 硅光子互连演进,进一步降低功耗与延迟。
5.2 GDDR 演进
速率:GDDR7 24 Gb/s,GDDR8 32 Gb/s,采用 PAM4/6 调制与新型均衡技术。
功耗:引入片上 VRM 与动态电压频率调节(DVFS),目标 10 pJ/bit。
系统级:支持 Chiplet GPU + 本地 GDDR 缓存,缓解走线瓶颈。
5.3 融合趋势
混合方案:高端 GPU 采用 HBM 作为 L3 缓存,GDDR 作为外部显存,实现带宽-成本平衡。
先进封装:台积电 CoWoS-L、Intel EMIB、Samsung I-Cube 将推动 HBM 成本下降,缩小与 GDDR 差距。
6. 结论与建议
AI/HPC 场景:优先选择 HBM3E/HBM4,带宽与功耗优势明显,需提前锁定 CoWoS 产能。
游戏/工作站:继续使用 GDDR6X/GDDR7,关注 PCB 信号完整性及散热设计。
中长期规划:评估 Chiplet + 混合内存架构,利用 HBM 缓存 + GDDR 主存的层次化设计,兼顾性能与成本。
供应链风险:HBM 依赖台积电 CoWoS,建议与 OSAT 建立第二供应源;GDDR 需关注 JEDEC 标准更新节奏。
参考文献
[1] JEDEC. JESD235C: High Bandwidth Memory (HBM3) Standard. 2023. https://www.jedec.org
[2] JEDEC. JESD232C: GDDR6 SGRAM Standard. 2022. https://www.jedec.org
[3] TSMC. CoWoS® Family Technology White Paper. 2024. https://www.tsmc.com
[4] NVIDIA. Hopper Architecture White Paper. 2022. https://www.nvidia.com
[5] AMD. RDNA3 Architecture Deep Dive. 2023. AMD ׀ 同超越,共成就 _ 人工智能
[6]https://kopu.chat/hbm-cowos-nvidia-2024/?__cf_chl_rt_tk=d5keIrm6RRDbmhQn.q3ooqVVr6EeMW_k71PUTJTMEtM-1772075871-1.0.1.1-WNk.tgO.dngeFKSoessGdiBw3yp7g5WuuXIm1ALTApw
浙公网安备 33010602011771号