AMD记录

CXL

rust

SP3 服务器设计主板设计规格

chiplets 架构

大芯片 Monolithic 架构 CPU增长，会有性能瓶颈，

多片封装架构，采用四个晶圆

3D 堆叠技术

32MB-》96MB

主频 cyclye 周期的关系

AMD 3D chiplet 封装技术，让三级缓存更大

CCD zhichi 8 个 core

GENOA-XBERGAMO 第四代

TURIN Dense

pcore ，ecore

CCD - CCX

EDA

成本：

Intel 设计+晶圆厂

AMD 设计+代工+封测（马来苏州通富微电封测），AMD 已经把晶圆厂卖掉了，谁先进用谁

AMD EPYC

行业现状：

　　

最低内存延时单晶元

算力、多晶圆（内存延时高）

罗马、米兰

SOC设计思路，没有南北桥，内存控制器，集中到IO带，

罗马、米兰（时钟不同步）

调优思路：

BIOS

内核

OS

NUMA

应用程序

目前我们用单路也就是单个CPU，性能耗时-》片之间的跳转，CCD之间跳转

set irq 网卡中断绑定

BIOS

　　为什么使用Auto？代表特定的值，例如CCD数量

　　SMT 打开超线程

todo 待办

　　CPU C-state 省电、节能（节能关闭） P-state 性能管理状态（要性能）

最大超频频率AMD == 睿频intel

NPS numa nodes per socket

ROMA，一个cpu，一个numa，一颗cpu每个象限作为一个节点，默认一个cpu一个节点

nps1 内存延迟高、8通道一起操作

nps4 一个numa node 内存延迟低，两个内存通道，

内存控制器，注重频率

TSME 内存加密技术

SEV docker 的内存加密

gcp 开启了这个加密

NBIO 北桥

IOMMU 虚拟化地址转换

SMU 性能相关

　　Determinim slider 设置决定模式2

　　Auto

　　Power 电源模式，性能发挥到最大，

　　performance 性能决定模式木桶原理，不同芯片之间性能一致　　（docker 模式下推荐）

APBDIS（电源管理） io超频 uncore　　

动态调节频率，CPU内的延时增加

降低最高频率值的设置，可能不同的时刻分配同一个

preferred IO IO优先处理的方式，百G 以内 set irq affnity lstop numa node 网卡，让网卡中断平均到多个核心上

每次轮训的时候，让他先走，网卡，磁盘这种

BUSID 填到这里

缺点，只能有一个网卡，保证这个网卡的优先级，两个网卡不可以

SSD是一组是一样的

ROMA Milan 内存带宽比较 349GB/s ｜

ROMA 不支持6内存通道，只支持 4/8 通道

Milan 支持6通道

Intel 是6内存通道

8+1D 64core

4+1D 32core

1D io带

llc / 32 几个ccd

内存延迟调优

两片150ns 调理之后 Intel90ns

内核 kernel

os

rust 内核硬件 hardware err

照片：

docker 应用调优

os grub iommu=pt，nohz=off 一定要打开

os 查看电源管理

os 关闭C-stat，即禁止进入休眠状态（ms级别的）

hadoop network config

照片

避免CPU 片之间的切换

是否绑定核心

QOS lllc Roma的分配单位是ccx为单位

大数据方向，AMD很强，比Intel强

关于软中断的点（我们也可以借用）

PCIE 通道多，AI训练

AI推理（AI-INFERENCE）

每个CPU下面挂在102个GPU和一个网卡，可以不使用PCIE-Swith，可以直连

NVIDIA GPU

chartGPT 用微软的云进行测试，底层用的AMD定制化芯片

AMD支持Anolis

第一代 nps4

intel 需要大核心

AMD 需要小核心，组成大的核心

AMD功耗低，

单核整型及浮点算力

我国有自己的能耗标准，炭效白皮书

tecnet 60% AMD

posted @ 2023-06-11 13:59 水中白磷阅读(238) 评论(0) 收藏举报

刷新页面返回顶部