节点级架构与MI300和MI200系列性能计数器和指标

节点级架构
MI300系列节点级架构,显示了8个完全互连的MI300X OAM模块,通过重定时器和HGX连接器连接到(可选)PCIEe交换机。
如图5-9所示,显示了具有双插槽配置的AMD EPYC处理器和八个AMD Instinct MI300X加速器的系统的节点级架构。MI300X OAM通过PCIe Gen 5 x16链路(黄线)连接到主机系统。GPU使用七个高带宽、低延迟的AMD Infinity Fabric™链路(红线)形成一个完全连接的8-GPU系统。
图5-9双插槽AMD EPYC处理器和8个AMD Instinct MI300X加速器的节点级架构
5.2.2 MI300和MI200系列性能计数器和指标
列出并描述了可用于AMD Instinct™MI300和MI200 GPU的硬件性能计数器和衍生指标。还可以使用ROCProfiler工具访问此信息。
MI300和MI200系列性能计数器包括以下类别:
1)命令处理器计数器
2)图形寄存器总线管理器计数器
3)着色器处理器输入计数器
4)计算单位计数器
5)L1指令缓存(L1i)和标量L1数据缓存(L1d)计数器
6)向量L1缓存子系统计数器
7)L2缓存访问计数器
以下部分提供了每个类别的其他详细信息。
所有MI300和MI200系列性能计数器的初步验证正在进行中。带星号(*)的需要进一步评估。
1. 命令处理器计数器
命令处理器计数器进一步分为命令处理器提取器和命令处理器计算。
2. 命令处理器提取器计数器
命令处理器提取器计数器定义,见表5-2。
表5-2 命令处理器提取器计数器定义

硬件计数器

单位

定义

CPF_​CMP_​UTCL1_​STALL_​ON_​TRANSLATION

周期

一个计算统一翻译缓存(L1)在等待翻译时停滞的周期数

CPF_​CPF_​STAT_​BUSY

周期

命令处理器提取器正忙的周期数

CPF_​CPF_​STAT_​IDLE

周期

命令处理器提取器空闲的周期数

CPF_​CPF_​STAT_​STALL

周期

命令处理器提取器停止的周期数

CPF_​CPF_​TCIU_​BUSY

周期

命令处理器提取器纹理缓存接口单元接口繁忙的周期数

CPF_​CPF_​TCIU_​IDLE

周期

命令处理器提取器纹理缓存接口单元接口空闲的周期数

CPF_​CPF_​TCIU_​STALL

周期

命令处理器提取器纹理缓存接口单元接口在等待空闲标签时停滞的周期数

纹理缓存接口单元是命令处理器和存储系统之间的接口。
3. 命令处理器计算计数器
命令处理器提取器计数器定义,见表5-3。
表5-3 命令处理器提取器计数器定义
表5-3 命令处理器提取器计数器定义

命令处理器计算计数器

单位

定义

CPC_ME1_BUSY_FOR_PACKET_DECODE

周期

命令处理器计算微引擎正忙于解码数据包的周期数

CPC_UTCL1_STALL_ON_TRANSLATION

周期

一个统一翻译缓存(L1)暂停等待翻译的周期数

CPC_CPC_STAT_BUSY

周期

命令处理器计算繁忙的周期数

CPC_CPC_STAT_IDLE

周期

命令处理器计算处于空闲状态的周期数

CPC_CPC_STAT_STALL

周期

命令处理器计算停滞的周期数

CPC_CPC_TCIU_BUSY

周期

命令处理器计算纹理缓存接口单元接口繁忙的周期数

CPC_CPC_TCIU_IDLE

周期

命令处理器计算纹理缓存接口单元接口空闲的周期数

CPC_CPC_UTCL2IU_BUSY

周期

命令处理器计算统一翻译缓存(L2)接口繁忙的周期数

CPC_CPC_UTCL2IU_IDLE

周期

命令处理器计算统一翻译缓存(L2)接口空闲的周期数

CPC_CPC_UTCL2IU_STALL

周期

命令处理器计算统一翻译缓存(L2)接口停滞的周期数

CPC_ME1_DC0_SPI_BUSY

周期

命令处理器计算微引擎处理器正忙的周期数

posted @ 2025-03-23 06:33  吴建明wujianming  阅读(46)  评论(0)    收藏  举报