自动驾驶Chiplet互连技术解决方案
摘要:“自动驾驶汽车整体Chiplet解决方案”为系列文章,由“一”、“二”和“三”三篇组成。本篇章为篇章“三”,我们将对“互连技术”、“互连电气层分析”、“网络安全性与可靠性”、“互连封装”等内容进行具体阐述。
09. 互连技术
在基于小芯片的架构中,小芯片(Chiplet)之间的通信对于实现这些专门的、独立的半导体组件之间的协作和数据共享至关重要。它确保了整个系统的无缝运行,支持可扩展性和灵活性,优化了性能,并助力实现定制化且节能的设计。这种小芯片(Chiplet)间的通信对于构建能够适应不同需求的复杂高性能微电子系统而言必不可少。多年来,AMD、Arm、ASE、谷歌、英特尔、Meta、微软、高通、三星和台积电等领先的半导体企业提出了各种互连技术和架构。我们整合了其中较为突出的技术,并在中期评估中进行了阐释。我们在下表中总结了这些互连技术的参数,并以此为依据提出了我们建议的互连方案。
添加图片注释,不超过 140 字(可选)
表8.互连参数
汽车行业不断增长的计算需求促使复杂的基于小芯片的架构得以应用,这也凸显了这些组件之间可靠且无缝通信的迫切需求。
理想的互连技术应能实现高速数据传输,同时保证稳定性、安全性和高效性。下表列出了现有小芯片互连技术的规格。我们建议根据小芯片内不同的组件组采用不同的互连技术。
UCIe是英特尔开发的一项新标准,由于得到了主要芯片供应商的支持,它有望成为小芯片互连的通用标准。我们推荐使用UCIe,是因为它与领先的芯片供应商具有互操作性,且规格出色。UCIe的延迟低于2ns,在上述互连技术中能源效率最高(0.25pJ/b),非常适合集成小芯片的数字部分,如处理器和加速器,这些部分对高数据速率有严格要求。
对于数字 - 内存和内存 - 内存通信,我们建议使用HBM2和HBM3。HBM技术通过垂直堆叠内存芯片,实现了更小的外形尺寸、超宽通信通道、更宽的内存总线和更高的带宽。鉴于内存读取和存储操作存在显著延迟,HBM成为内存通信的理想选择。
在模拟-数字通信领域,我们建议采用BoW。BoW的封装设计相对简单,无需中介层。作为一种并行总线协议,BoW能源效率高,布线更密集。尽管在效率和带宽方面与UCIe相当,但UCIe在吞吐量和封装灵活性上更胜一筹。因此,我们建议在连接外设和模拟-数字接口时使用BoW。
添加图片注释,不超过 140 字(可选)
表9.总结
10. 互连电气层分析
10.1 物理层分析
在确定了上述互连方式后,推导互连技术的物理层参数和限制,使其与所需的时钟频率和数据速率相匹配至关重要。这些限制也将为小芯片的系统级封装设定基准。在这方面,互连的物理层实现具有以下特点:
• 互连采用 2.5D 技术进行封装,使用厚度为 100μm、相对介电常数ϵr=11.68的硅-二氧化硅中介层。
• 互连走线由铜制成(电导率σCu=5.98×107 S/m)
走线宽50μm、厚20μm,被建模为具有50μm厚接地平面的带状线走线。
• 系统的时钟频率为2GHz,互连必须在该频率下正常工作。
因此,互连所需的最小3dB带宽为2GHz,但考虑到噪声和时钟PLL误差,选择了1.5的安全系数。
添加图片注释,不超过 140 字(可选)
带宽最终受互连线上信号的上升时间(Tr)和下降时间(Tf)限制。在对称运行中,Tr=Tf。数字通道的3dB带宽计算公式为:
添加图片注释,不超过 140 字(可选)
上升时间Tr指的是信号上升沿从 10% 上升到 90% VDD 所需的时间,计算公式为:
添加图片注释,不超过 140 字(可选)
其中,Rtr和Ctr是走线的等效电阻和电容,这些参数取决于走线尺寸和基板(中介层)材料。我们的目标是找出能够满足带宽目标的最大走线长度。根据这些模型计算得出:
添加图片注释,不超过 140 字(可选)
其中,ltr是走线长度。利用上述数据,我们可以推导出互连通道的 3dB 带宽与ltr的函数关系。该3dB带宽与目标3dB带宽的对数图如下:
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
图21.带宽与跟踪长度的对数图
添加图片注释,不超过 140 字(可选)
从图中可以推断,交点(36mm)是中介层上两个互连小芯片之间的最大可能距离。
10.2 延迟和带宽分析
我们使用之前介绍的gem5模拟器对串行协议的各种带宽配置进行模拟。
结果如下图所示。将带宽提高两倍并不一定会使吞吐量提高两倍或延迟降低两倍,这种关系取决于具体的实现方式和遵循的规范。
添加图片注释,不超过 140 字(可选)
图22.通信带宽变化
添加图片注释,不超过 140 字(可选)
图23.通信带宽变化
这是仅从功能模拟角度获得的通用串行通信协议的结果。由于这是一个通用协议,所以这种关系不是线性的。UCIe和BoW的参数使其在高带宽下具有良好的吞吐量和较低的延迟,相关文献数据和测试模拟也证实了这一点。
有人通过使用2.5D封装技术实现了与UCIe规范兼容的芯片间(D2D)小芯片,达到了32Gb/s/线的带宽和0.44pJ/bit的能源效率。英特尔的数据中心和人工智能团队采用UCIe后得到了以下延迟值。
11. 网络安全性与可靠性
任何为汽车应用设计和制造的小芯片都必须符合ISO 21434标准:
添加图片注释,不超过 140 字(可选)
图24.通信带宽变化
添加图片注释,不超过 140 字(可选)
图25.通信带宽变化
• 网络安全需求
该标准规定了半导体制造商必须满足的一系列安全需求,涵盖安全设计、开发、制造和供应链管理等方面。这些要求旨在最小化漏洞,确保用于汽车系统的半导体组件的完整性。一些具体需求包括:
- 实施安全启动和固件更新机制。
- 使用加密和认证协议进行网络安全通信。
- 采用硬件网络安全模块(HSMs)进行密钥管理和加密运行。
-进行漏洞评估和渗透测试,以识别和解决潜在的网络安全弱点。
• 威胁评估与风险管理
- 标准要求制造商进行全面的威胁评估,以识别其半导体可能面临的潜在漏洞和网络攻击。
- 这包括分析攻击面、潜在威胁以及成功攻击对车辆功能安全和网络安全的影响。
- 根据威胁评估结果,制造商必须实施风险管理措施来降低已识别的风险,可能包括对漏洞进行优先级排序、实施额外的安全控制以及制定事件响应计划 。
• 网络安全保证
- ISO 21434定义了制造商必须执行的一系列网络安全保证活动,以证明符合该标准。
- 这些活动可能包括代码审查、渗透测试、安全审计和漏洞评估。
- 第三方认证机构也可参与验证安全控制的实施情况,确保符合标准。
• 供应链网络安全
- 该标准认识到网络安全的供应链对于确保汽车系统整体安全的重要性。
- 它要求制造商在整个供应链中实施强有力的网络安全实践,包括与可信供应商合作,并在生产的各个阶段实施网络安全控制。
• 持续监测与改进
- ISO 21434强调持续监测和改进网络安全实践的必要性。
- 制造商必须监测其系统中的漏洞和安全威胁,并不断更新网络安全控制措施,以适应不断变化的威胁。
- 这需要对网络安全采取积极主动的态度,并致力于持续改进。
小芯片存在的安全漏洞如下:
• 攻击面增加
与单片芯片相比,小芯片拥有更多的接口和通信路径,从而扩大了攻击面。攻击者可以利用这些接口中的漏洞来获取未经授权的访问权限、操纵数据或发起拒绝服务攻击。
• 硬件木马
在制造过程中,恶意电路可能被嵌入单个小芯片中,从而危及整个系统。这些木马很难检测和清除,可被用于数据窃取、破坏功能或发起物理攻击。
• 供应链风险
对多个小芯片供应商的依赖增加了在设计、制造或组装过程中引入漏洞的风险。恶意行为者可能渗透供应链,篡改小芯片,引入漏洞或后门。
• 软件漏洞
每个小芯片可能运行自己的软件,这可能会引入漏洞。这些漏洞可被利用来进行未经授权的访问或危及整个系统。
• 小芯片间通信不安全
小芯片之间的通信通常通过中介层或其他高速接口进行。如果这些接口未得到妥善保护,就容易受到窃听、数据操纵和拒绝服务攻击。
• 中间人攻击
攻击者可以拦截小芯片之间的通信,窃取数据或注入恶意代码。对于未在安全区域内进行物理保护的小芯片,这种攻击尤其危险。
• 物理攻击
小芯片容易受到侧信道分析和故障注入等物理攻击。这些攻击可以提取敏感信息或破坏小芯片的功能。
• 假冒小芯片
恶意行为者可以制造并销售含有漏洞或后门的假冒小芯片。如果未检测到并清除这些假冒小芯片,将危及整个系统的安全。
我们建议将安全性分为三个阶段:
• 小芯片级别
• 安全启动和信任根(RoT):安全启动可确保在小芯片启动时仅加载授权的固件,防止未经授权的代码执行和恶意操纵。信任根则作为小芯片内的中央信任锚点,为加密密钥提供安全存储,并促进与其他组件的安全通信。
• 硬件网络安全模块(HSMs):通过实施芯片级硬件安全模块(CHSM),专门用于高效且安全地执行加密运行。该模块应负责以下任务:
- 阻止小芯片内IP之间的不安全通信;
- 防止任何恶意信号传播到小芯片外部;
- 通过设计硬件补丁来屏蔽注入的故障;
- 通过检测小芯片级别的篡改来阻止故障注入。
• 通信:我们设计了一种热隐蔽信道,用于在处理器之间传输敏感数据,如密钥。在通信前会确定从一个处理器发送到另一个处理器的数据大小。每个处理器都连接到一个环形振荡器设计。当要发送的比特为高电平(logic 1)时,会发送一个触发信号,使环形振荡器持续切换。由于在极短时间内发生大量比特翻转,设备温度会升高,比特翻转持续数毫秒。我们在ZCU-102 FPGA上模拟了这一特性,实现了2bps的比特传输速率。我们运行FFT算法,根据需要使用可变窗口来检测峰值。这种通信方式可用于传输密钥或敏感数据,以防止中间人攻击。
添加图片注释,不超过 140 字(可选)
图26.为发送数据的热隐蔽通道记录的温度测量值
添加图片注释,不超过 140 字(可选)
图27.识别发送比特的FFT算法
• 系统级封装(SiP)级别
- 访问控制策略:访问控制策略规定了在SiP的不同执行阶段,一个小芯片对某项资产的访问权限。具体包括:未经授权的小芯片无法访问受保护地址范围内的内存;未经授权的小芯片不能向受限内存区域写入数据(防止信息泄露)。
- 信息流策略:信息流策略限制与安全资产相关的信息泄露或修改。例如:未经授权的小芯片在数据传输过程中无法访问其他小芯片的数据;未经授权的小芯片不能修改其他小芯片的数据;小芯片A不能冒充小芯片B来接收发送给小芯片B的数据;发送给某个小芯片的数据不能被未经授权的小芯片拦截。
- 活性策略:活性策略确保SiP能够正常执行任务而不被中断。例如:小芯片不能向通信结构发送大量消息来破坏正常行为(如拒绝服务攻击);在运行过程中,不可信小芯片发送的消息数量不应超过最大限制阈值;不可信小芯片生成的数据包数量限制只能在安全启动时进行分配和更新。
12. 互连封装
互连封装技术在半导体设计和系统集成领域起着关键作用。该领域的一个重要策略是采用基于小芯片的异构集成技术。这种方法将数字处理器、加速器、模拟组件和内存等多种技术融合在一起,旨在构建一个高效且高度灵活的系统。
满足异构集成的多方面需求需要使用不同的小芯片接口协议。这些协议是集成具有不同功能小芯片的关键。例如,AXI等协议有助于将单个核心集成到统一的集群中,而低级协议则用于将模拟组件与处理器集成。在内存集成方面,HBM和LPDDRx等协议用于实现与处理器的无缝连接。
在异构集成框架中,每种技术在系统整体功能中都发挥着特定作用。数字处理器负责执行指令和进行计算,加速器作为专门组件可提升特定任务的性能,模拟组件负责管理信号并为外部设备提供接口,内存则承担着存储数据和指令的重要职责,以便系统能够及时访问。
小芯片的概念及其通过异构方法的集成与行业延长摩尔定律的总体目标相契合。通过采用这种策略,可以实现片上系统(SoC)功能的分解,进而优化小芯片性能、提高能源效率,并通过标准化接口增强灵活性。数字处理器、加速器、模拟组件和内存等小芯片的无缝集成有助于实现可配置性和适应性,推动半导体设计和系统集成的发展。
连接这些小芯片是一项重大挑战,这也引发了小芯片领域的广泛关注和技术发展。存在多种互连技术,其中外围组件互连 Express(PCIe)是一种著名的技术。PCIe作为一种高速串行计算机扩展总线标准,用于芯片到芯片(C2C)或板到板(B2B)通信。然而,对于芯片间(D2D)互连,Compute Express Link(CXL)、Bunch of Wires(BoW)和 Universal Chiplet Interconnect Express(UCIe)等替代技术受到了更多关注。
Eliyan公司在该领域取得了突破性进展,其研发的NuLink是一种用于D2D连接的物理层技术。NuLink是UCIe协议层和BoW物理层的超集,相比现有解决方案具有显著优势。
12.1 NuLink:一种新型互连封装技术
Eliyan的NuLink技术解决了基于小芯片系统的关键局限性,特别是那些使用硅中介层的系统。虽然硅中介层能够提供高走线密度,实现低功耗下的高带宽,但存在封装尺寸有限、成本高和散热困难等问题。
NuLink采用了不同的方法,允许小芯片直接安装在标准有机基板上,无需硅中介层。这带来了诸多优势,包括在一个封装中构建更大、更复杂的系统,降低封装成本,缩短生产周期,提高测试覆盖率,以及改善散热性能。
12.1.1 性能指标及对AI ASIC的影响
Eliyan Technology推出的NuLink PHY是一种小芯片互连技术,它基于UCIe和BoW等行业标准的超集,在标准有机基板上实现了与硅基中介层互连相似的带宽、功耗和延迟性能。这项技术可增加内存容量,有望使AI应用的内存翻倍。NuLink PHY允许每个ASIC集成更多HBM内存,有可能将HBM的数量增加一倍。Eliyan的NuLinkX将NuLink的传输距离延长了10倍,至少达到20cm,支持通过印刷电路板(PCB)进行芯片间外部布线,提高了高性能系统的设计灵活性。Eliyan的这些创新旨在通过提供更高效的互连解决方案和增加内存密集型应用的内存容量,应对高性能计算(HPC)领域,尤其是AI处理所面临的挑战。
12.1.2 经济影响及行业认可
Eliyan的小芯片方案为IC设计带来了经济效益,使多芯片方案对汽车行业的芯片供应商更具吸引力。这符合行业优化功耗和带宽的需求,特别是对于数据中心的加速服务器计算等应用。
添加图片注释,不超过 140 字(可选)
图28.硅中间层与NuLink的封装技术
添加图片注释,不超过 140 字(可选)
图29.Eliyan NuLink增强了多芯片设计,增加了HBM内存
行业分析师,如Yole Intelligence的高级分析师John Lorenz,认可了采用小芯片方法的经济优势。Eliyan的NuLink小芯片互连技术有望满足汽车计算应用中芯片供应商对功耗和带宽优化的需求。
12.1.3 系统级封装(SiP)解决方案的进展
能够在标准有机封装中实现基于小芯片的系统,有助于为汽车行业创建更大的系统级封装(SiP)解决方案。这使得每单位功耗可实现更高的性能,显著降低成本,并提高良品率。
根据早期客户的兴趣和需求,NuLink与多个代工厂和工艺节点技术的兼容性,凸显了其满足各种汽车应用需求的灵活性。
12.1.4 发展方向及行业影响
NuLink是Open Compute Project采用的Bunch of Wires(BoW)标准的基础,并且与UCIe标准化工作兼容,这体现了其在行业内的协作理念。
目前,致力于创建一种针对内存流量优化的高效通用芯片间互连的工作,彰显了NuLink对面向未来发展的承诺。这一努力旨在加速内存小芯片在汽车计算领域的应用。
到目前为止,我们的讨论主要集中在不使用中介层的互连技术。现在,我们将关注点转向使用中介层的设计,并重点介绍ASICLAND采用的一项突破性技术,他们在创新设计中使用了RDL中介层。
12.2 RDL 中介层
12.2.1 简介
半导体行业对提高性能、减小尺寸和降低制造成本的追求,推动了先进封装技术的探索。2.5D RDL中介层在扇出型晶圆级封装(FOWLP)的发展中扮演着关键角色,为异构芯片集成提供了经济实惠的解决方案。
12.2.2 2.5D RDL中介层的关键特性
所提出的2.5D RDL中介层技术引入了一种细间距RDL中介层(大于560平方毫米),能够容纳一个高带宽内存(HBM)和两个ASIC。该设计旨在实现无硅通孔(TSV)且经济高效的封装。细间距RDL中介层提高了信号完整性和凸点连接可靠性,支持集成具有更高I/O数量的多个芯片。
12.2.3 性能评估
细间距2.5D RDL中介层封装展现出强大的性能,与HBM配合可实现高达3.2 Gbps/引脚的运行速度。可靠性测试,包括1000小时的热循环(TC1000hr)、264小时的高压加速应力测试(b - HAST 264hr)、264小时的超高压加速应力测试(u-HAST 264hr)和1000小时的高温存储测试(HTS1000hr),结果显示该封装可靠性极佳,无任何故障。这项技术有望成为高性能计算(HPC)应用中经济高效且大尺寸2.5D封装的理想解决方案。
添加图片注释,不超过 140 字(可选)
表10.包装结构参数
添加图片注释,不超过 140 字(可选)
图30. 2.5D RDL中介层的封装架构
12.2.4 与硅中介层的比较
在互连封装领域,硅中介层曾经占据重要地位,但存在成本高、散热困难和封装尺寸有限等缺点。相比之下,2.5D RDL中介层具有高生产率、低成本和高可靠性等优势。其固有的特性,如芯片间通信的低延迟、低热阻和设计灵活性,使其成为高性能计算应用中先进封装的有力选择。
12.2.5 实验洞察
为验证2.5D RDL中介层的功能而进行的实验包括制造一个包含一个HBM和两个逻辑芯片的封装结构。封装的规格,包括尺寸、RDL最小线宽/间距和连接点数量,都对其有效性起到了重要作用。所提出的制造过程包括RDL制造、多芯片键合、封装、芯片暴露、焊球附着以及中介层在基板上的组装。
12.2.6 功能和可靠性评估
信号完整性模拟是评估HBM-PHY功能的关键环节。模拟结果展示了优化后的信号路由布局,优化后眼图张开度增大。细间距2.5D RDL中介层在3.2 Gbps/引脚的速率下实现了读写VWM运行,验证了其功能。
可靠性评估,包括TC、b - HAST、u - HAST和HTS测试,证实了2.5D RDL中介层的稳健性。TC循环过程中的应力分布分析显示,芯片边缘存在独特的应力集中现象,这也展示了所提出系统的结构完整性。
2.5D RDL中介层技术成为高性能计算应用中先进封装的有前途的解决方案。它相对于硅中介层的优势,结合强大的实验和模拟结果,使其成为异构芯片集成新时代的关键推动因素。其经济影响、可靠性和性能指标凸显了2.5D RDL中介层在不断发展的互连封装领域的重要性。
12.2.7 ASICLAND在芯片封装技术上的进展
芯片设计公司ASICLAND积极致力于开发一种新的封装技术,旨在提高台积电芯片晶圆基板(CoWoS)技术的成本效益。
在韩国首尔由TheElec主办的一次本地会议上,ASICLAND的经理Kang Sung-mo强调了CoWoS相较于集成扇出和有机基板封装在性能和功耗改进方面的潜力。
CoWoS以其使用硅中介层和硅通孔(TSV)而闻名,在控制中介层尺寸方面具有灵活性。Kang强调ASICLAND专注于通过开发新的封装解决方案来降低硅中介层的成本。
12.2.8 ASICLAND的RDL中介层封装
ASICLAND的创新方法涉及使用重分布层(RDL)中介层,以解决传统硅中介层的成本问题。这种新的封装配置将HBM(高带宽内存)和SoC(片上系统)放置在RDL中介层之上,通过硅桥实现芯片间的连接。此外,ASICLAND在设计中加入了散热片,以改善热管理。
12.3 苹果的UltraFusion技术
让我们来看看苹果公司在芯片方面的进展。
苹果公司通过在其电脑中引入定制硅芯片,彻底改变了半导体行业。M1 Ultra处理器采用了定制的封装架构,利用台积电的CoWoS-S技术连接两个M1 Max处理器的芯片。需要注意的是,CoWoS-S技术比台积电的InFO_LSI技术更昂贵,后者使用局部硅桥而非完整的硅中介层。然而,由于InFO_LSI技术当时无法满足M1 Ultra的需求,苹果选择了经过验证但价格更高的CoWoS-S解决方案。
添加图片注释,不超过 140 字(可选)
图31.苹果M1 Ultra芯片的拆卸
专家推测,苹果可能会在下一代M1处理器中采用InFO_LSI技术。
M1 Ultra的基板由Unimicron提供,采用ABF RDL技术,凸点间距为25μm。它被归类为系统级芯片封装(SoCiP),因为它将两个M1 Max芯片结合在一起。
12.4 互连封装总结
本系列文深入探讨了半导体设计和互连封装技术,重点介绍了小芯片集成、Eliyan的 NuLink、2.5D RDL中介层以及ASICLAND的技术进展。
13. 热分析
13.1 背景
小芯片的热管理相较于片上系统(SoC)具有诸多显著优势。其中最突出的是小芯片的模块化设计,它简化了热管理过程,减少了对相邻元件的热影响。相比之下,SoC由于发热组件距离较近,不得不采用热效率较低的布局规划。
添加图片注释,不超过 140 字(可选)
图32.SoC上小芯片热效率的验证
13.1.1 小芯片与 SoC 的对比
在进行热感知小芯片设计之前,我们必须证明小芯片在散热方面优于传统的SoC架构。这可以通过对两个相似封装进行热模拟来实现,一个采用SoC设计,另一个则细分为小芯片。我们使用HotSpot v7.0,这是一款支持2D、2.5D和3D集成电路(IC)建模的预RTL热模拟器来进行演示。通过LU分解,它可以捕捉各个封装随时间的温度变化轨迹,并与它们的功耗相关联。
模拟场景包括对一个简单封装的原始布局进行建模,然后在相同的运行条件下对更细分的小芯片式布局进行建模。随时间变化的稳态温度显示,小芯片式配置的最高温度显著降低了超过2K,证实了小芯片在散热性能上的提升。
13.2 设计考量
本小节深入探讨小芯片热管理的关键方面,涵盖生产、封装以及外部冷却方法。
13.2.1 小芯片封装
由于在生产阶段具有灵活性,小芯片的布局可以针对峰值温度、面积和成本等多个参数进行优化。为了证实小芯片的散热能力,我们使用了热感知微架构模拟工具HotSpot v7.0进行模拟。封装系统的热效率对半导体器件的整体性能和可靠性起着至关重要的作用。其中一个关键因素是组件的堆叠方式,目前常用的堆叠方式有2D、2.5D和3D,每种方式都有其各自的优缺点:
• 2D:传统的2D封装是将组件放置在单层平面上,这种方式成本较低,生产复杂度也低,并且采用了成熟的制造工艺。
• 2.5D:这种封装方式是将多个芯片或小芯片堆叠在硅中介层上,形成一个堆叠结构,以改善连接性。中介层允许更短的互连,可定制的布局规划,以及增加散热表面积。
• 3D:这种封装是将多个有源组件层直接堆叠在彼此之上。高互连密度实现了更短的信号路径,但代价是会产生集中的热热点,并且冷却组件与发热组件之间的物理距离增加。
13.2.2 外部冷却
必须将芯片产生的热量从封装外部的整个系统中移除,并有效地、可靠地传递到周围环境中。虽然风冷是一种成熟的低成本选择,但它受到周围环境条件的限制,且比热较低。液冷虽然可以解决这些问题,但需要复杂的设置,并且需要足够的密封和防护措施。微流体技术提供了一种有前景的解决方案,它结合了液体冷却和相变冷却,从根本上解决了热传递问题,同时具备理想的流体特性。
13.3 参数信息
我们首先根据给定的规格创建初始布局规划,然后结合热考虑因素对其进行进一步优化,最后将其与微流体和相应的冷却回路集成。在此,我们以信息娱乐主控单元为例进行简要说明。为了获得基本的规格和设计基线,我们使用系统的微架构图,然后整理架构中每个特定组件的面积和功率需求。
添加图片注释,不超过 140 字(可选)
图33.信息娱乐头架构参数
添加图片注释,不超过 140 字(可选)
图34.典型2.5D封装架构的横截面图
设计规格用于创建在TAP 2.5D模拟中构建和优化布局规划所需的自定义配置文件。模拟中使用了具有相应材料和热属性的布局规划。
13.4 封装分析
基于以下考虑因素,我们为系统选择了2.5D封装:
• 性能提升:通过中介层实现的更短互连可减少延迟,提高整体性能。
• 散热:中介层的较大表面积增强了散热能力。
• 成本效益:基于无源中介层的2.5D集成具有较高的良品率,已在商业上得到验证,可大幅减小系统尺寸。
采用多层三明治结构,包括以下部分:
• 有机基板:为整个封装提供结构支撑,并作为连接各层的基础。
• C4凸点(可控塌陷芯片连接):促进有机基板与中介层之间的电气连接,实现不同层之间的信号和功率传输。
• 带有硅通孔(TSV)的中介层:作为小芯片之间的桥梁,便于通信;它包含用于不同层之间垂直连接的TSV。由于无源中介层使用后端制程(BEoL)制造工艺,具有较低的热负载和制造简单的优点,因此选择无源中介层而非有源中介层。
• 微凸点:实现中介层与小芯片层之间的细间距连接,确保高密度、高带宽的小芯片间通信。
• 小芯片层:包含各个小芯片(CPU、GPU、内存等),执行特定功能,为整个系统功能做出贡献。
• 热界面层:管理和增强热导率,确保小芯片产生的热量能够高效传递到后续层。
• 散热片:将热量均匀分散到整个表面,通过散发小芯片产生的热量来提升热性能。
• 散热器:进一步将热量散发到周围环境中,改善整体热管理,防止过热,并为与流体冷却系统的交互提供接口。
13.4.1 布局优化
我们利用小芯片式架构中布局的可定制性,在封装内重新定位和更换元件,通过温度、面积和成本等参数优化成本函数,并通过广泛的热模拟进行验证。
添加图片注释,不超过 140 字(可选)
图35.单个包装元素的平移和旋转
• 模拟工具
- TAP-2.5D:TAP-2.5D是一款EDA工具,它使用基于模拟退火的算法来寻找小芯片布局解决方案,以最小化小芯片间的总布线长度和系统温度。它利用HotSpot-6.0进行热模拟,并使用自行开发的路由优化工具(MILP)来估计布线长度。
* 成本函数:采用一种改进的成本函数来优化小芯片间的路由,在选定的信息娱乐封装中同时最小化工作温度和总布线长度。它定义了模拟退火成本函数,通过Min-Max归一化处理温度(T)和布线长度(W)。权重(α和1-α)表示温度和长度的影响程度,由约束条件动态调整,在较高温度下(α>0.5)优先降低温度,在温度低于85°C时(α<0.5)优先最小化布线长度。这种动态调整确保在不影响布线长度优化的前提下获得热可行解。
添加图片注释,不超过 140 字(可选)
* 接受概率:模拟器使用概率算法,根据以下概率函数接受后续的小芯片布局:
添加图片注释,不超过 140 字(可选)
策略性衰减因子K使得在模型接近收敛且计算成本超过收益时,后续迭代的接受概率降低。
13.4.2 模拟结果
使用上述工具以及“系列文篇章二”图18中的规格表,为信息娱乐主控单元创建了一个布局规划(Floorplan)。
• 退火参数:在设置布局优化算法之前,为其设置基本的退火参数非常重要,这能确保模拟在不增加额外计算成本的情况下达到确定的全局最优解。通过将迭代次数限制在温度容差超过后续改进的点来实现这一目的。
收敛准则:
添加图片注释,不超过 140 字(可选)
多次迭代并逐步改变K值,对数据点进行曲线拟合以更好地可视化。由此确定的K值随后被输入到接受概率准则中,以生成合理的热模型。
添加图片注释,不超过 140 字(可选)
图36.使用温度容差标准确定理想K
添加图片注释,不超过 140 字(可选)
图37.理想K值的迭代次数
成本函数:我们通过逐步减小中介层面积进行迭代,以模拟可用面积对小芯片层峰值温度的影响。再次收集离散可行中介层尺寸的数据点,然后将其输入到多项式拟合函数中。得出在面积为1600cm2
(即尺寸为40x40mm的中介层)时峰值温度达到最小值。
• 实施:记录初始二叉搜索树布局的峰值温度趋势,并与通过自定义模拟退火算法得出的优化布局进行比较。优化后的峰值温度大幅下降,证明了在中介层上合理放置组件的策略是有效的。
基于上述结论,将布局规划以及各个组件的适当功率轨迹输入到TAP-2.5D中。经过预测的110次迭代后,形成了完整的优化布局规划,并输出为SVG文件。
添加图片注释,不超过 140 字(可选)
图38.中间层面积对小芯片峰值温度的影响
添加图片注释,不超过 140 字(可选)
图39.理想K值的迭代次数
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
图40.峰值温度比较-优化放置前后
13.5 冷却方法
电子元件和子系统的集成密度不断提高,包括3D芯片堆叠技术的商业化发展,这加剧了电子系统开发者面临的热管理挑战。芯片功耗超过100W、局部热点热通量超过1kW/cm²以及封装级体积热生成可能超过1kW/cm³,这些情况凸显了当前“远程冷却”模式的局限性,它无法满足先进硅基和化合物半导体组件性能持续提升的需求。为了克服这些限制,消除电子元件和系统中摩尔定律持续推进的重大障碍,必须在芯片、基板和/或封装中“嵌入”积极的热管理措施,直接对发热部位进行冷却。
分析冷却方法时,我们的主要目标之一是确保即使冷却系统出现失效,所有系统仍能安全运行。这意味着在模拟布局以优化放置时设定安全的阈值温度,并确保沉浸式冷却系统的被动冷却进一步保证该阈值的安全系数。除了安全方面,该系统围绕在汽车系统中的应用进行设计,需要具备应对其生命周期中各种条件的稳健性,并确保在基本假设可能不成立的场景和边界条件下(例如,被动散热器或带散热器的冷却回路依赖的可用通风空气或强制对流假设不成立)仍能保持最佳性能。该方法的另一个方面是在确保系统最大有效性的同时,最小化其功率需求,因为在设计以电动汽车为中心的系统时,必须考虑能源成本。这些条件使我们选择带有两相被动冷却回路的微流体技术作为冷却架构的最佳方案,下面将详细介绍。
13.6 微流体
微流体技术被选为冷却架构的最佳选择,因为它是在小芯片架构的中介层级别直接从热源移除热量的最有效方法。电力电子是将电能转换为不同形式的固态电子器件,广泛应用于日常各种领域(从计算机到电池充电器,从空调到混合动力电动汽车,甚至卫星)。对更高效、更小尺寸电力电子器件的需求不断增长,意味着这些器件每单位体积转换的功率大幅增加,进而提高了器件的热通量(单位面积产生的热量)。这样产生的热量正成为一个大问题。小型化电子器件会产生大量热量,必须散发出去以维持性能。
添加图片注释,不超过 140 字(可选)
图41.微流体设计的分解图
添加图片注释,不超过 140 字(可选)
图42.两相非能动冷却系统
设计为小芯片生态系统一部分的微流体系统展现出卓越的冷却性能。这不仅为我们围绕小芯片中的热热点设计最有效的微流体冷却回路提供了灵活性,而且带有两相冷却的被动冷却回路确保小芯片所有区域的最高稳态温度始终在安全阈值内。其他使用强制对流(液体或空气)的替代方案在从热源提取热量方面效率较低,并且需要为气流或散热器留出空间。我们的微流体通道采用两相冷却回路(由Novec 7000和水组成)。
13.7 两相被动沉浸式冷却
两相被动沉浸式冷却回路比单相系统更具优势,因为它能通过Novec的快速汽化和冷凝循环,使小芯片在极端和波动负载下更快达到稳态运行条件。与单相冷却相比,两相冷却在给定体积或质量的流体下能提供更好的散热效果,因为流体的潜热比其比热大几个数量级。这种沉浸式冷却设置使系统更高效,降低了能源消耗,与传统液体冷却系统相比成本更低。
传统上,电子产品依靠风冷散热器或液冷冷板来管理电子废热。然而,使用液-汽相变的冷却方案(以下简称 “两相冷却”)是超越单相冷却的实用且经济的选择。美国国防部(DoD)和美国国家航空航天局(NASA)已将两相冷却视为满足其汽车平台某些新兴冷却严格要求的理想解决方案。
微流体通道连接到装有水的冷凝容器,蒸发的Novec在穿过水柱时迅速冷却并变回液态,释放出热量。水中积累的热量通过充当散热器的容器被动地散失到环境中。Novec蒸汽气泡的快速热传输确保即使整个系统在没有外部动力或泵驱动回路的情况下被动运行,也能实现有效的热通量。该系统利用Novec的低蒸发温度提高冷却效率,并利用蒸汽的浮力流动实现快速的流体运动。冷凝器基于水池设计,Novec气泡在其中有效冷凝,且不受不可凝气体的影响,水的剧烈搅动增加了向壁面的热传递。
14. 结论
总体而言,小芯片在计算级优化、任务并行化、功耗以及最大化计算黄金比例方面均优于传统的单片式SoC设计。微架构设计的Gem5模拟结果、SoC与小芯片对比以及小芯片间布局优化的热Tap-2.5D模拟结果,还有建议的强制对流冷却技术,都证实了小芯片是汽车领域硬件的未来发展方向。对UCIe、AIB、BoW、QPI、Infinity Fabric和LIPINCON的全面比较以及物理层参数分析表明,UCIe适用于数字接口,HBM2和HBM3适用于数字-内存通信,BoW适用于模拟-数字接口。在网络安全和可靠性方面,遵循ISO 21434标准,融入安全启动、硬件安全模块和持续监控等特性以保障小芯片级别的网络安全。对NuLink和RDL中介层等替代互连封装技术的探索,为满足特定需求提供了灵活性。因此,小芯片是应对当今快速发展环境中高计算需求的最佳解决方案。
参考文献链接
人工智能芯片与自动驾驶

浙公网安备 33010602011771号