摘要:
Vertical 从 Volta 引入 SMEM 总共 3 层存储结构。纵向结构上,传统架构仅对用户暴露 2 层存储交互,而随着 Hopper 添加 st.async ,NVIDIA GPU 完成暴露 3 层存储结构的双向通信接口,即 \(2\times C_{3}^{2}=6\) 一共 6 种指令 阅读全文
posted @ 2025-09-14 16:30
DevilXXL
阅读(31)
评论(0)
推荐(0)
摘要:
调研三个系列: 数据中心、图形卡 RTX 以及边缘 Jetson 系列,数据来自 LLM 整理。 片上 buffer 存储容量图表: OPS- Off-chip Bandwidth 配比,OPS 选择各种精度中最高 dense OPS: 能效分析,OPS 选择各种精度中最高 dense OPS: 阅读全文
posted @ 2025-09-14 16:29
DevilXXL
阅读(25)
评论(0)
推荐(0)

浙公网安备 33010602011771号