3DIC EDA之一 | 基于Chiplet集成的计算架构

微信视频号:sph0RgSyDYV47z6

快手号:4874645212

抖音号:dy0so323fq2w

小红书号:95619019828

B站1:UID:3546863642871878

B站2:UID: 3546955410049087

Content- Chiplet基计算架构概述:需求、优势、难点 ● 多核架构瓶颈 ● SoC设计之转型升维 ● 模块化设计范式- 2.5D Chiplet基计算架构 ● 芯粒拆分与接口,GPU/DRAM Chiplet ● Intel Stratix 10 FPGA ● 从硬件资源异构到大吞吐量GPU ● ARM Cortex众核
● InFO_SoW到嵌入式硅桥- 3D Chiplet基计算机构 ● AMD 3D处理器与Infinity Fabric ● CEA-Leti众核芯粒混合模块堆叠 ● Lakefield:计算Die与存储器垂直堆叠
● Foveros、EMIB与POPSTAR架构

1

概述

多核架构的瓶颈。异构多核架构比单核和同构多核架构具有更高的效率。为了进一步提高多核架构的性能,在有限的芯片面积内集成了更多的晶体管;然而,随着工艺节点微缩,晶体管的漏电功耗增加,严重降低了多核架构的能效。

同构与异构多核架构的性能比较(2012)

性能需求下传统SoC/ASIC的设计困境。为了确保计算系统的热可靠性,芯片中的一些硬件资源无法被利用;也就是说,暗硅效应更加明显。

计算系统的架构将计算单元存储器制备在同一衬底上,采用相同的先进工艺,即单片系统级芯片,可以提高其性能——然而,将计算、存储、控制和其他IP集成到芯片中显著增加了设计和验证的复杂性。

模拟和数字电路采用不同的工艺制造,因此必须在同一工艺中使用多种制造设备,这极大地增加了成本

苹果移动SoC处理器教科书般地示以世人:性能显著提高,而成本明显上升

iPhone处理器发展及成本分析(2021)

模块化和通用化的芯粒设计可行性。通过模块化和通用化的Chiplet(芯粒)设计的计算系统架构可以实现更高的性能、更低的复杂性和成本,并且通过使用2.5D或3D集成技术可以减少寄生效应。

从而衍生Chiplet(芯粒)划分和异构集成的组合方法

Chiplet(芯粒)新工程范式

2

基于2.5D Chiplet计算架构

早在2015年,Sehat提出用于移动设备的MoChi架构,通过先进制程的Chiplet(芯粒)(如CPU)和成熟制程的其他Chiplet(芯粒)集成而成。系统资源共享和通信可以通过MoChi接口实现。

与传统的单片SoC架构相比,该架构具有更低的设计复杂度。计算架构的核心是通过接口集成来自不同供应商的Chiplet(芯粒),并且可以使用先进的2.5D集成技术来减少引脚数量和封装成本。

MoChi架构(2015)

两年后,Arunkumar等人将单芯片多核GPU分解为多个GPU Chiplet(芯粒),以设计高性能计算架构,结果将计算速度提高22.8%,能效达到0.5 pj/bit。

由于GPU和DRAM Chiplet(芯粒)的硬件资源利用率提高,暗硅效应得到缓解。不仅如此,通过将较大的GPU分解为多个面积较小的GPU Chiplets,提高了晶圆的良率。

单芯片多核GPU分解为多个GPU Chiplets(2017)

又过两年后,NVIDIA用Volta 10 nm GPU为基准,在给定计算任务(FP32, INT8)中的性能,对比采用2.5D Chiplet(芯粒)集成的FPGA 现场可编程门阵列 Intel Stratix 10, 14 nm。

对比的结果是Chiplet基架构具有更高的性能和硬件利用率。GPU和基于Chiplet(芯粒)的FPGA的计算能力分别达到其峰值的6%和57%。FPGA的延迟和能效分别是GPU的1/16和34倍。

Tensor RAM Chiplet FPGA架构(2019)

基于美国国家航空航天局对可重构计算架构的需求,Mounce提供了应用航天设备的高性能空间异构计算架构。Chiplet(芯粒)之间的高速通信通过标准通信协议和总线实现。

基于Chiplet的架构可以构建更强大的、包含射频Chiplet和FPGA的异构系统,并进一步实现更小的尺寸和更低的成本。即基于Chiplet(芯粒)的计算系统架构可以利用不同硬件资源的优势,并实现更高的系统可扩展性

航天设备应用的高性能空间异构计算架构(2016)

为了系统性能可以通过先进封装进一步提高,Vijayaraghavan设计了一个用于气候预测的基于Chiplet的计算系统。它集成了高吞吐量和高能效的GPU Chiplet(芯粒)、高性能多核CPU Chiplet(芯粒)和大容量3D存储器。该系统在1GHz频率下可以实现3TB/s的带宽和160 W的功耗。

超大容量计算的多芯粒中介层设计与分析(2017)

2018到2019年间,计算多核与众核与高带宽存储(HBM)基于2.5D Chiplet架构成为了一种被广泛采纳的路径。

基于Chiplet的高性能计算架构成为流行,如2020年的两个计算Chiplet(芯粒)集成了四个7nm ARM Cortex-A72核。Chiplet间通信可通过低电压的封装内互连技术形成的并行通道实现。在4GHz频率下,带宽速率和密度分别为320 GB/s和1.6 Tb/s/mm²。

两个计算Die集成了四个7nm ARM Cortex-A72核(2020)

不仅如此,通过InFO_SoW技术可以实现Chiplet(芯粒)连接的更低粗糙度和更小线间距。与倒装芯片多芯片模块互连相比,带宽密度和配电网络阻抗分别提高了2倍和降低了30%,互连功耗降低了15%。

通过基板/中介层的精细线距互连架构

在Agilex系列FPGA中,核心Chiplet(芯粒)和其他Chiplet(芯粒)使用嵌入式多芯片互连桥进行互连。与Stratix10相比,延迟降低了2.5倍,带宽密度和能效分别提高了5.68倍和2.84倍]。

Agilex™系列Intel FPGA

在2019年的嵌入式硅桥与扇出晶圆级封装中,参考业标准的2.5D多芯片互连,硅桥方案在高密度互连需求中面积没有限制,允许灵活放置。通过隔离信号路径和电源路径,无需额外的硅通孔来降低成本,可提高信号完整性和电源完整性。数据传输的功耗在计算系统总能耗中占很大比例。提高能效和带宽的一个有前景的方法是优化Chiplet(芯粒)互连。

2.5D Chiplet架构提高能效和带宽的信号完整性

其后,通过中介层(interposer)高密度互连逐渐通过良率提升成为流行的架构,InFO_SoW和EMIB之间的共同点在于在中介层内制备高密度TSV和再分布层(RDL)。Chiplet(芯粒)-中介层-衬底和印刷电路板(PCB)通过2.5D技术集成,从而有效提高了带宽、能效、信号完整性和电源完整性

Zaruba在2020年使用四个计算Chiplet(芯粒)和高带宽存储器Chiplet(芯粒)(8 GB L1缓存和27 MB共享L2存储器)构建了用于高精度浮点计算的计算架构。

该计算架构可以通过重构在高性能和高效率模式之间切换。峰值效率大于4 TFlop/s,功耗比NVIDIA Volta(7 nm)低25%。该架构的效率分别是Intel i9-9900K(14 nm)和ARM N1(7 nm)的两倍和三倍。足见基于Chiplet(芯粒)的计算架构更容易与大容量存储器集成,并具有高可配置性

四个RISC-V计算Chiplet芯粒和高带宽存储Chiplet(2020)

由于Chiplet(芯粒)的模块化程度很高,计算系统架构可以根据应用配置为各种模式。与传统的基于SoC的计算系统相比,该计算架构具有更高的可重构性和可扩展性。

同时,Chiplet架构需要软件和硬件的协同设计,并且存在一定的设计复杂性。幸运的是,针对这些问题已经存在多样的解决方案,基于Chiplet(芯粒)的2.5D架构具有明显的可重构计算系统设计技术优势。

3

基于3D Chiplet计算架构

3D Chiplet计算架构师通过垂直组合Chiplet芯粒进一步实现性能和成本的优化。

受小型化外形尺寸和可穿戴设备(运动手表、身体功能设备等)、便携式电子产品(手机、笔记本电脑等)轻量化的驱动,需要减小电子设备的尺寸,越来越多的计算系统采用3D架构设计。

AMD通过不同数量的Chiplet组合快速开发了用于移动设备和便携设备芯片Rome和Matisse,最明显的优势是计算系统的设计得到简化,产品上市时间大大缩短。

该架构的其他优点包括数字Chiplet向后兼容复杂的接口和存储器Chiplet。即可根据计算能力要求选择计算和存储器芯粒的最佳组合,与传统的多核架构和SoC计算系统架构相比,具有更高的可扩展性和可重构性。

AMD基于Chiplet(芯粒)的处理器设计(2020)

为了进一步提高能效,Kadomoto的工作中利用片上电感线圈的互感效应实现Chiplet通信。并使用0.18 µm工艺制造了通信网络,最大带宽可达1.6 Gb/s,时间变化为3%,总功耗为14.5 mW。

该计算架构在医疗微型机器人中具有潜力。尽管基于互感的芯片间通信简化了布线设计,但是在小体积内的电磁耦合会导致信号时序恶化,后续屏蔽设计逐步得到改良。

可“变形”的计算架构与原型处理器架构

在AMD的Zeppelin的多芯片系统架构中,无限架构技术(Infinity Fabric, IF)被用来连接Chiplet(芯粒),以提高计算系统的可扩展性和可配置性。它将可扩展数据架构和可扩展控制架构结合为一个关键推动因素,并利用3D封装布线层来支持更复杂的连接。封装内带宽可以达到256 GB/s(使用534个IF),其能效为1.2pj/bit(EMIB为2 pj/bit)。

AMD Zeppelin:高速连接和Chiplet架构细节(带SP3封装引脚)

而CEA-Leti则通过将28 nm计算芯粒堆叠在带有电源管理模块的65nm中介层上,Chiplet通过微凸块(节距20 µm)、TSV(深宽比10:1,节距40 µm)和RDL(宽度10 µm,节距20 µm)互连,成功开发得到96核处理器。

Chiplet的通信可通过可扩展的片上网络实现,带宽高于3Tbit/s/mm²,延迟低于0.6 ns/mm。

基于Chiplet(芯粒)的INTACT计算架构(2019)

2020年Lakefield移动处理器也采用了多Chiplet设计技术,由采用最佳工艺(10 nm和22 FFL)制备的计算和存储器芯粒组成。

所有Chiplet(芯粒)通过节距50 µm的微凸块面对面键合(Foveros技术)。寄生电容和电阻分别低于250 fF和70 mΩ。数据传输速率带宽高达500 Mb/s,能效为0.2 pj/b。

Lakefield移动设备Chiplet基架构与EDA设计流程

Foveros技术与EMIB具有良好的兼容性,可用于同一系统的高密度互连,以实现更灵活的互连。IF、NoC和Foveros均基于3D电气互连,制备工艺已成熟,微系统的性能具有高度可预测性。

兼容EMIB的Foveros应用(2019)

基于Chiplet的微计算系统在特定工作频率下(典型值为1.15 GHz)可以获得高带宽和高能效。

然而,随着工作频率的增加,TSV和RDL的寄生电阻、电容和电感会降低信号完整性。以及TSV和RDL产生的焦耳热会降低系统可靠性,因此,需要互连设计与相应EDA的不断优化。

另外,新硬件引进方面,Fotouhi等人在2019年研发了一种使用硅光混合Chiplet互连技术的3D集成架构。

其中,硅桥用于短距离电气互连接收发器芯粒,阵列波导光栅路由器用于波分复用中的长距离互连,计算性能显著提高了23%,同时功耗降低了30%。

混合光电互连架构(2020)

同样,POPSTAR互连架构通过波长选择实现Chiplets间数据并行传输的光通信结构,可以节省38%的能耗,性能下降仅为1%,峰值带宽为1750 Gb/s。

其中AWGR和互连工艺基于硅光技术,可以通过调整波长来实现光信号的选择性路由。

POPSTAR互连架构(2019)

4

小结

  • 基于Chiplet2.5D和3D的架构,单核和同构多核架构在轻负载工作下处理任务并行化和计算加速。
  • 异构计算架构可以通过集成不同计算核心(如CPU-GPU/CPU-NPU)的优点来提高能效。
  • Chiplet架构可以实现性能、能效或可扩展性中的单一优化,采用先进制程可进一步与先进封装技术集成,具有高带宽、高能效和低数据延迟。

基于Chiplet(芯粒)的2.5D和3D集成架构具有明显优势,应用侧重各有不同。

  • 数据带宽方面,3D集成架构更优,但需要更好的热设计。适用于高性能计算,例如数据中心、网络、服务器等。
  • 成本方面,2.5D集成架构不需要具有高密度TSV的多层中介层,工艺难度较小。该架构更适用于移动设备、笔记本电脑、可穿戴电子产品等应用。
  • 在Chiplet(芯粒)材料方面,由于具有相同的热膨胀系数,多个同质Chiplet(芯粒)采用3D集成架构,有利于提高机械可靠性。异质Chiplet(芯粒)更适合2.5D集成架构(如EMIB集成技术),该系统具有更高的散热性能,但其面积会增加。

 

微信视频号:sph0RgSyDYV47z6

快手号:4874645212

抖音号:dy0so323fq2w

小红书号:95619019828

B站1:UID:3546863642871878

B站2:UID: 3546955410049087

 

参考文献链接

3DIC EDA之一 | 基于Chiplet集成的计算架构

posted @ 2025-11-05 07:06  吴建明wujianming  阅读(13)  评论(0)    收藏  举报