《AdaP-CIM: Compute-in-Memory Based Neural Network Accelerator Using Adaptive Posit》(一)
1. 论文主要内容和研究方向
论文题目:《AdaP-CIM: Compute-in-Memory Based Neural Network Accelerator Using Adaptive Posit》
主要内容:
本论文提出了一种名为 AdaP-CIM 的神经网络推理加速器,主要创新点是结合了:
- 自适应Posit(AdaP)数值格式:在传统Posit格式基础上,提出了动态扩展指数编码的方法,以适应不同数据分布,提升数值动态范围,同时降低硬件开销。
- 推测式输入对齐(Speculative Alignment Unit, SAU):用于在CIM架构下高效实现浮点MAC操作,通过比传统比较器树(Comparator Tree)更快更省功耗的方法确定最大指数值。
研究方向:
属于AI加速器设计、低精度数值格式、存内计算(Compute-in-Memory, CIM) 领域,旨在提升能效、降低面积和功耗,同时在低比特宽度下保持神经网络推理准确性。
2. 研究方法介绍(带截图)
(1)Adaptive Posit (AdaP) 格式
- 引入新的参数 rs(regime最大长度),限制Posit中regime部分的长度,避免因regime过长导致的尾数截断,提高数值表示精度。
- 采用双编码方案:当有效指数小于阈值T时采用传统Posit编码,否则使用扩展指数Eext编码。
截图(原文Fig.1)如下:
(注:若需,我可以单独为你截取图1具体内容)
(2)Speculative Alignment Unit (SAU)
- 传统方法(CT)需用比较器树逐层比较指数,延迟高、能耗大。
- SAU方法采用比特串行(bit-serial) 方式推测最大指数,大幅降低关键路径延迟,缩小面积和功耗。
截图(原文Fig.2)如下:
(注:如需,我可以为你完整截取SAU图)
3. 研究结果分析
(1)精度验证
- 在 BERT-Base-Uncased 模型 + GLUE 数据集上,AdaP-CIM相比Posit、AdaptivFloat表现更好,特别在7bit下,AdaP只比FP32下降0.013,而Posit下降了0.03。
实验对比表(原文Table I):
Bit Width | CoLA (Matthews Corr.) | STS-B (Pearson Corr.) | MNLI (Matched Acc.) |
---|---|---|---|
7-bit Posit | 0.546 | 0.834 | 0.816 |
7-bit AdaP | 0.573 | 0.849 | 0.835 |
可以看到,AdaP在所有测试中都优于传统Posit和AdaptivFloat格式。
(2)PPA(性能/功耗/面积)结果
- 在 TSMC 28nm 工艺下综合:
- 面积降低了 16.4%
- 功耗降低了 25.7%
- 主要得益于:
- AdaP限制regime长度,解码器面积功耗下降。
- SAU代替CT,使对齐单元面积和能耗极大降低。
实验对比表(原文Table II):
模块 | 面积占比 | 功耗占比 |
---|---|---|
AdaP解码器 | 22.53% | 10.29% |
SAU对齐单元 | 1.02% | 0.63% |
传统Posit解码器 | 33.01% | 18.66% |
传统CT对齐单元 | 3.04% | 15.17% |
(3)对比实验中引用的其他项目
- 参考了 AdaptivFloat [4],Posit [1] 和 OAQ [3]。
- 引用了Dimca [2] 作为Baseline。
其中,Posit有开源库:
🔗 Stillwater Universal C++ Posit Library
其他AdaptivFloat和OAQ目前无明确公开源码。
4. 论文出处及期刊会议等级
- 会议:Design, Automation & Test in Europe Conference (DATE 2024)
- 出版方:EDAA(European Design and Automation Association)
- CCF等级:B类国际会议
- 领域分区:微电子与设计自动化领域顶会之一
5. 是否有开源代码
论文正文没有提到有开源代码。
但由于涉及Posit,可以结合Stillwater Universal库进行相关仿真与实验。
如果后续作者有上传代码,一般可能会在GitHub或学校主页公布,目前未见。
6. 相关原文出处引用(部分摘录)
- “AdaP employs a fixed-length representation and chooses between two exponent encoding schemes for optimal runtime representation.”
- “By seamlessly integrating these two features, AdaP-CIM achieves a 4x higher memory density compared to FP32 at negligible accuracy loss.”
- “The proposed design reduces the overall area and power consumption of the macro by 16.4% and 25.7%, respectively, compared to the BL design.”
⚡整体总结:
这篇论文针对AI加速器中的存内计算(CIM)提出了结合新型自适应Posit格式和高效输入对齐的方法,有效提升了能效与面积效率,且在低比特宽度下保持了神经网络推理的准确率。
要不要继续,我可以帮你也做一下
➡️ "仿照论文风格总结一段中文综述"?
(方便你直接用在读书报告或者论文总结里)要的话告诉我!✨