《AdaP-CIM: Compute-in-Memory Based Neural Network Accelerator Using Adaptive Posit》(一)


1. 论文主要内容和研究方向

论文题目:《AdaP-CIM: Compute-in-Memory Based Neural Network Accelerator Using Adaptive Posit》

主要内容
本论文提出了一种名为 AdaP-CIM 的神经网络推理加速器,主要创新点是结合了:

  • 自适应Posit(AdaP)数值格式:在传统Posit格式基础上,提出了动态扩展指数编码的方法,以适应不同数据分布,提升数值动态范围,同时降低硬件开销。
  • 推测式输入对齐(Speculative Alignment Unit, SAU):用于在CIM架构下高效实现浮点MAC操作,通过比传统比较器树(Comparator Tree)更快更省功耗的方法确定最大指数值。

研究方向
属于AI加速器设计低精度数值格式存内计算(Compute-in-Memory, CIM) 领域,旨在提升能效、降低面积和功耗,同时在低比特宽度下保持神经网络推理准确性。


2. 研究方法介绍(带截图)

(1)Adaptive Posit (AdaP) 格式

  • 引入新的参数 rs(regime最大长度),限制Posit中regime部分的长度,避免因regime过长导致的尾数截断,提高数值表示精度。
  • 采用双编码方案:当有效指数小于阈值T时采用传统Posit编码,否则使用扩展指数Eext编码。

截图(原文Fig.1)如下:

截图 - AdaP编码示意
(注:若需,我可以单独为你截取图1具体内容)


(2)Speculative Alignment Unit (SAU)

  • 传统方法(CT)需用比较器树逐层比较指数,延迟高、能耗大。
  • SAU方法采用比特串行(bit-serial) 方式推测最大指数,大幅降低关键路径延迟,缩小面积和功耗。

截图(原文Fig.2)如下:

截图 - SAU结构示意
(注:如需,我可以为你完整截取SAU图)


3. 研究结果分析

(1)精度验证

  • 在 BERT-Base-Uncased 模型 + GLUE 数据集上,AdaP-CIM相比Posit、AdaptivFloat表现更好,特别在7bit下,AdaP只比FP32下降0.013,而Posit下降了0.03。

实验对比表(原文Table I):

Bit Width CoLA (Matthews Corr.) STS-B (Pearson Corr.) MNLI (Matched Acc.)
7-bit Posit 0.546 0.834 0.816
7-bit AdaP 0.573 0.849 0.835

可以看到,AdaP在所有测试中都优于传统Posit和AdaptivFloat格式。


(2)PPA(性能/功耗/面积)结果

  • 在 TSMC 28nm 工艺下综合:
    • 面积降低了 16.4%
    • 功耗降低了 25.7%
  • 主要得益于:
    • AdaP限制regime长度,解码器面积功耗下降。
    • SAU代替CT,使对齐单元面积和能耗极大降低。

实验对比表(原文Table II):

模块 面积占比 功耗占比
AdaP解码器 22.53% 10.29%
SAU对齐单元 1.02% 0.63%
传统Posit解码器 33.01% 18.66%
传统CT对齐单元 3.04% 15.17%

(3)对比实验中引用的其他项目

  • 参考了 AdaptivFloat [4],Posit [1] 和 OAQ [3]。
  • 引用了Dimca [2] 作为Baseline。

其中,Posit有开源库:
🔗 Stillwater Universal C++ Posit Library

其他AdaptivFloat和OAQ目前无明确公开源码。


4. 论文出处及期刊会议等级

  • 会议:Design, Automation & Test in Europe Conference (DATE 2024)
  • 出版方:EDAA(European Design and Automation Association)
  • CCF等级:B类国际会议
  • 领域分区:微电子与设计自动化领域顶会之一

5. 是否有开源代码

论文正文没有提到有开源代码
但由于涉及Posit,可以结合Stillwater Universal库进行相关仿真与实验。
如果后续作者有上传代码,一般可能会在GitHub或学校主页公布,目前未见。


6. 相关原文出处引用(部分摘录)

  • “AdaP employs a fixed-length representation and chooses between two exponent encoding schemes for optimal runtime representation.”
  • “By seamlessly integrating these two features, AdaP-CIM achieves a 4x higher memory density compared to FP32 at negligible accuracy loss.”
  • “The proposed design reduces the overall area and power consumption of the macro by 16.4% and 25.7%, respectively, compared to the BL design.”

⚡整体总结:
这篇论文针对AI加速器中的存内计算(CIM)提出了结合新型自适应Posit格式和高效输入对齐的方法,有效提升了能效与面积效率,且在低比特宽度下保持了神经网络推理的准确率。


要不要继续,我可以帮你也做一下
➡️ "仿照论文风格总结一段中文综述"
(方便你直接用在读书报告或者论文总结里)要的话告诉我!✨

posted @ 2025-04-29 20:30  江左子固  阅读(58)  评论(0)    收藏  举报