冰山之下:ICAC 2.5D/3D 互联课程记录

去 ICAC 蹭完饭有一阵了,懒癌发作拖到现在才做心得总结。ICAC 印象最深刻的是复旦陈迟晓老师带来的 《2.5D/3D/3.5D Integration: Fabrication and Chiplet Partition》 演讲。因为先前纯数字架构接触更多一些,对 chiplet 更多是门外汉,本篇也抱着不求甚解的态度记录一下。

互联层次

与存储层次结构类似,互联层级越往高层带宽越小,呈现一种多层层次化同质化结构。说同质是指它们功能相同,根据应用场景具体需求(和资金)可 trade-off 选择 mapping 到不同实现。按照互联密度由高至低依次排序如下:

  • die 内互联:die 内走线通过 metal layer 当走线实现的最高密度互联,此互联上限受限于良率公式规定的 die size;
  • die 与 die 互联:包括 2.5D 集成的 bridge 以及 3D 集成的 TSV 或者 face-to-back 互联;
  • IO 到封装:从 IO 引到封装管脚,比如 wire bonding 或者是 flip-chip;
  • PCB 互联:受限于 PCB 制造工艺走铜宽度、信号完整性

各种互联的呈现关系和实际生产的设计、制造高度耦合,比如以各个层次的 bump size 举例子:

flip-chip

上图是 flip chip 封装简图,图中就出现了两种尺寸的 bump,黄色所指从芯片引出来的 bump 以及从封装引出来到 PCB 的 BGA bump。

SHINSAI

引用陈老师组 2025 ISSCC SHINSAI [1] 的图片,包含了三种尺寸的 bump:

名称 层级 尺寸
ubump die-interposer 40um
C4 Bump interposer-substrate 100 um
BGA Ball substrate-PCB 200~600 um

数据比较抽象,举个例子,SHINSAI 在 28nm 下流片,28nm 常见厂 IO pad 尺寸在 20um 左右,ubump 尺寸对应 IO pad 的制造层级;而 BGA Ball 的数量级大致在 0.5mm,焊板子常见的 0402 中 02 指的就是 0.02inch = 0.5mm。

作为一名门外汉,我最好奇的还是新颖的 N-D 互联能够提升多少带宽呢?以下通过简化模型对比 2D、2.5D、3D 三种方式,互联的带宽 \(b\) 可以用互联密度 \(\lambda\) 乘以空间尺寸 \(x\)\(b=\lambda x\)。2D 空间尺寸是die的周长,2.5D 空间尺寸是芯片面积,因为两个芯片投影面积不重叠还要除以 2,而 3D 芯片则是等于芯片面积,并且 3D 芯片还可以随着层数增加。

流片良率限制有个面积上限,不妨假设流片面积 \(A\) 在 100mm2,采用先前的 20um IO pad 的数据,互联线密度为 \(1\text{bit}/20\text{um}\),互联面密度为 \(1\text{bit}/(20\text{um})^2\)。2D 芯片周长大致看作正方形 \(4\sqrt{A}\),3D 芯片层数为 \(L\),计算一个偏高的数据:

集成方式 密度公式 互联位宽(bit)
2D \(4\lambda\sqrt{A}\) 2k
2.5D \(\lambda^2A/2\) 125k
3D \(\lambda^2A (L-1)\) 250k(L=2)

从实际生产出发

这场 workshop 最惊喜莫过在于硬知识之外的小故事。前文也提到各种互联和实际设计、制造高度耦合相关,本身就已经牵扯到 fab 厂和封装厂两个阶段配合,考虑设计变量还会牵扯多种节点工艺、多种互联工艺同时集成在一个芯片之上。陈老师分享了 AMD / Intel 服务器领域的一个故事:

Sapphire Rapids

EPYC

上图分别是 Intel Sapphire Rapids 和 AMD EPYC 这 die shot 也太帅了。Intel Sapphire 每个 core 采用相同的同构设计,而 AMD EPYC 到了二代则将通信和 logic die 分离在不同节点流片的异构设计。AMD 异构的使用可以从几个方向解读:

  • 历史原因的影响: Global Foundries 是从 AMD 制造部分离出去的,AMD 在 GF 有营业额规定要流多少产额,但 GF 技术力受限(现在 GF 已退出 7nm 以下先进节点竞争)先进节点并不成熟,所以将设计划分为 14 nm 和 7 nm 两种 die 在不同的 fab 分别流片;
  • 成本的选择: 随着晶体管逐渐逼近物理极限,晶体管加工难度越来越大,在先进节点上每个晶体管成本逐渐上升,并不是越先进越好,根据选择一个性能-成本平衡的节点商业潜力更大。陈老师这里还举了一个 Intel 异构的例子,fab 会根据市场选择下一代节点技术路线,Intel 在 22nm 和 10nm 之间没有一个成熟的工艺,吃不下这部分节点对应的市场,所以采用 22nm + 10nm 的异构设计取一个 trade-off;
  • 上层应用的特性: 通信功能较为成熟,而且对工艺节点需求较低;而逻辑功能对工艺节点敏感。

每个决策背后都是复杂因素综合结果,实际情况究竟是哪一种很难得知。但这些决策大致归结于两个主要因素:商业和技术限制。比如 Silicon Interposer 相比 RDL Interposer 互联密度高,但物理结构脆弱难以 scaling 并且造价昂贵,所以现在演进了整体使用 RDL Interposer ,局部用 Silicon Bridge 提供高带宽的“胶水”路线。整体路线的决策受商业成本、材料特性多种影响。

提及这点是想给自己近期做 AI 加速器方向提一个醒,这个方向虽然是硬件领域,但实际上很多定制加速器第一性是来自于软件,出一个新模型提一个新架构。传统培养数字设计和后端解耦专注于逻辑功能,但随着工艺逐渐达到晶体管极限,逻辑、工艺后端、互联、封装上下游似乎在逐渐加强耦合探索更多优化空间。本身半导体底层是受制于器件材料工艺,本身发展相对软件较为缓慢,以软件为第一性方向,本身软硬件从业人数对比就不平衡,可以提供肩膀的“巨人”就更少,而底层不断在变动,概念也来不及充分研究甚至会和软件抢风头,工作积累的连续性也很有挑战。到底从哪个角度立足来做硬件值得未来长期思考。

冰山之下

陈老师有提到复旦 2020 年起步做这个方向,当时各个工艺还不成熟,TSV 的 keep-out zone 甚至没有 design rule。扎根于硬件的研究其中具体而深刻的问题很多都是要接触才能得知,可全国又有多少实验室能流片,能流片的实验室里又有多少可以和厂商高度合作生产先进技术?SHINSAI 一作在知乎介绍了流片的心路历程 [2],其中各种工程管理问题在 tapeout 中倍感现实,在敬佩之余,又不禁感慨其成功难以复刻。


  1. https://ieeexplore.ieee.org/document/10904819/ ↩︎

  2. https://zhuanlan.zhihu.com/p/28713206473 ↩︎

posted @ 2025-04-06 22:24  DevilXXL  阅读(244)  评论(0)    收藏  举报