AMD记录

CXL

 

rust

SP3 服务器设计 主板设计规格

chiplets 架构

大芯片  Monolithic 架构 CPU增长,会有性能瓶颈,

多片封装架构,采用四个晶圆

3D 堆叠技术

 

32MB-》96MB

 

主频  cyclye 周期的关系

 

AMD 3D chiplet 封装技术,让 三级缓存更大

CCD zhichi 8 个 core

 

GENOA-XBERGAMO 第四代

TURIN Dense 

 

pcore ,ecore

 

CCD - CCX

 

EDA

 

成本:

Intel 设计+晶圆厂

AMD 设计+代工+封测(马来 苏州 通富微电封测),AMD 已经把晶圆厂卖掉了,谁先进用谁

AMD EPYC

行业现状:

  

 

最低内存延时 单晶元

算力、多晶圆(内存延时高)

罗马、米兰

SOC设计思路,没有南北桥,内存控制器,集中到IO带,

罗马、米兰(时钟不同步)

调优思路:

BIOS

内核

OS

NUMA

应用程序

 

目前我们用单路 也就是 单个CPU,性能耗时-》片之间的跳转,CCD之间跳转

set irq 网卡中断绑定

BIOS

  为什么使用Auto?代表特定的值,例如CCD数量

  SMT 打开超线程

todo 待办

  CPU C-state 省电、节能(节能关闭)  P-state 性能管理状态(要性能)

最大超频频率AMD == 睿频intel

 

 

NPS numa nodes per socket

ROMA,一个cpu,一个numa,一颗cpu每个象限作为一个节点,默认一个cpu一个节点

nps1    内存延迟高、8通道一起操作

nps4     一个numa node 内存延迟低,两个内存通道,

 

内存控制器,注重频率

TSME 内存加密技术

SEV docker 的内存加密

gcp 开启了这个加密

 

NBIO 北桥

IOMMU 虚拟化 地址转换

SMU 性能相关

  Determinim slider 设置决定模式2

  Auto

  Power 电源模式,性能发挥到最大,

  performance 性能决定模式 木桶原理,不同芯片之间性能一致  (docker 模式下推荐)

APBDIS(电源管理) io超频 uncore  

动态调节频率,CPU内的延时增加

降低最高频率值的设置,可能不同的时刻 分配同一个

 

 

preferred IO IO优先处理的方式,百G 以内 set irq affnity  lstop numa node 网卡,让网卡中断平均到多个核心上

每次轮训的时候,让他先走,网卡,磁盘这种

BUSID 填到这里

缺点,只能有一个网卡,保证这个网卡的优先级,两个网卡不可以

SSD是一组是一样的

 

ROMA Milan 内存带宽比较 349GB/s | 

ROMA 不支持6内存通道,只支持 4/8 通道

Milan 支持6通道

Intel 是6内存通道

 

 

8+1D 64core

4+1D 32core

1D io带

llc / 32 几个ccd

 

 

内存延迟调优

两片150ns 调理之后 Intel90ns

 

内核 kernel

os

 

rust 内核 硬件 hardware err

 

照片:

docker 应用调优

os grub iommu=pt,nohz=off 一定要打开

os 查看电源管理

os 关闭C-stat,即禁止进入休眠状态(ms级别的)

 

hadoop network config 

 

照片

避免CPU 片之间的切换

是否绑定核心

 

QOS lllc  Roma的分配单位是ccx为单位

 

大数据方向,AMD很强,比Intel强

关于 软中断的点(我们也可以借用)

 

PCIE 通道多,AI训练

 

AI推理(AI-INFERENCE)

每个CPU下面挂在102个GPU和一个网卡,可以不使用PCIE-Swith,可以直连

 

NVIDIA GPU 

chartGPT 用 微软的云进行测试,底层用的AMD定制化芯片

 

AMD支持Anolis

 

第一代 nps4

 

intel 需要大核心

AMD 需要小核心,组成大的核心

 

 

AMD功耗低,

 

单核整型及浮点算力

 

我国有自己的能耗标准,炭效白皮书

 

tecnet 60% AMD

posted @ 2023-06-11 13:59  水中白磷  阅读(238)  评论(0)    收藏  举报