HardwareArch - 随笔分类 - kongchung

AWS re_invent 2019和2020 中的Graviton

摘要：Graviton 1 是AWS的第一个ARM的处理器；工艺是16nm；有50亿个晶体管；  Graviton 2 整体架构如下 Graviton 2 是7nm的；有300亿个晶体管；是基于64位的ARM Core的；准确说就是ARM Neoverse N1 Core；阅读全文

posted @ 2021-12-11 00:13 kongchung 阅读(181) 评论(0) 推荐(0)

AWS re_invent 2021 中的Graviton 3和相关的服务器产品

摘要：引言： Graviton 是基于ARM Neoverse产品线的SoC； Graviton 1是2017年发布的； Graviton 2是2018年发布的； Graviton 3是2021年发布的； Graviton 3 采用的是chiplet的设计，片上有7个Die； 550亿晶体管；最高功耗是1 阅读全文

posted @ 2021-12-10 23:17 kongchung 阅读(417) 评论(0) 推荐(0)

理解X86的内存管理

摘要：Segmentation 提供的机制是隔离格子的code, data, stack； Paging 提供的是一种虚拟内存系统，当然也提供多任务之间的隔离；虚拟地址到物理地址的转换如下图： 如上图，进程读写的地址是VA（虚拟地址），通过分段的机制，指向到LA（线性地址）中的某些阅读全文

posted @ 2021-09-22 22:53 kongchung 阅读(432) 评论(0) 推荐(0)

Hotchips 33学习：Google的Video Coding Unit 视频转码单元

摘要：视频转码的算法在逐渐优化，软件转码消耗的时间也越来越多，换算为pixels/second的话，可以看出更加明显的数量级的差异描述一个这个卡的作用，同样的视频质量的话，传输带宽可以降低5倍； 1920*1080pixels*30frames/s*rgb32bit/10^6=1990Mbps=248 阅读全文

posted @ 2021-08-29 10:45 kongchung 阅读(128) 评论(1) 推荐(1)

Hotchips 33 学习：Intel 数据中心计算卡Ponte Vecchio

摘要：Xe分为四个系列；用模块化的方式组合： Xe HPC的Xe Core：里面有8个Vector Engine和8个XMX Engine，以及8个深度脉动阵列；512KiB L1 Cache；每个Vector Engine是512bit的，1个时钟周期可以完成512/32=16个FMA的操作；因此阅读全文

posted @ 2021-08-29 09:42 kongchung 阅读(346) 评论(0) 推荐(0)

Hotchips 33 学习：三星电子HBM2-PIM

摘要：问题提出，也就是说内存和处理器之间的带宽永远都会存在，刚不过就躲一下，直接在内存进行计算。 Aquabolt已经是三星电子的HBM2的内存，Aquabolt-XL是基于HBM2构建了PIM的产品；是这种形式产品的第一代；上面图中的比较是HBM2和DRAM的比较，不是HBM2-PIM和HBM2的比较阅读全文

posted @ 2021-08-25 00:05 kongchung 阅读(1253) 评论(0) 推荐(0)

Architecture All Access：A Tour of Innovation 第一部分 CPU

摘要：我从Intel的微信的公众号了解到这个系列，这上面的有汉化的字幕；第一部分：https://mp.weixin.qq.com/s/27dwNmoc5GNgiIq1-jNMpQ 第二部分：https://mp.weixin.qq.com/s/RZIUgxLc8EHyyVIorkGY2Q 在Intel 阅读全文

posted @ 2021-05-30 21:27 kongchung 阅读(235) 评论(0) 推荐(0)

Understanding Tensorcore Computing Performance of Ampere

摘要：看到下面的白皮书的两段话： https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf Using FP16/FP32 mixed-precision 阅读全文

posted @ 2021-05-23 07:13 kongchung 阅读(712) 评论(0) 推荐(0)

寒武纪思元290芯片和MLU290-M5卡

摘要：引言：寒武纪的首个训练芯片：思元290 TSMC 7nm工艺，MLUv2架构；有64个MLU Core，内存使用HBM2的内存，互联方面支持MLU-Link的互联技术；使用思元290做卡是MLU290，本次发布的是MLU290-M5形态的，是Mazzine形态的卡；芯片计算性能：使用MLU 阅读全文

posted @ 2021-05-08 21:56 kongchung 阅读(1565) 评论(0) 推荐(0)

NUMA Domian和NUMA Distance

摘要：1. 交织是什么交织内存主要的目的是通过将内存地址分布在不同的地方进行读写以弥补内存和处理器的速度差；（内存慢）这样的话，从不同的地方进行连续的内存读写，不会在一个地方长时间等待，以提高内存的读写的吞吐；因为不管是控制器，还是通道或者是内存的Bank在连续的读或者写之间，都存在最小的等待时间；阅读全文

posted @ 2021-05-08 17:18 kongchung 阅读(2974) 评论(0) 推荐(0)

Understanding Habana Labs's GPU

摘要：推理卡的Codename是GOYA 计算： 3类计算引擎，TPC,GEMM,DMA，第一个进行向量计算，是主要的引擎，第二个进行矩阵运算，第三个是DMA；最高支持FP32的计算；采用TSMC 16 nm制程；应该是标卡的形态；FHFL-2S，TDP200W；内存： 2 Channel DDR 阅读全文

posted @ 2021-05-08 16:56 kongchung 阅读(247) 评论(0) 推荐(0)

AMD Instinct MI100-首个FP64性能超10TFLOPS的计算卡

摘要：基础参数硬件架构：CDNA 软件栈：ROCm，Radeon Open Compute Platform 互联端口：3条Infinity Fabric 2.0 Host端口：X16 PCIe Gen 4/3 形态：Full High Full Length Dual Slot 制程：7nm 制造商：阅读全文

posted @ 2021-05-08 15:52 kongchung 阅读(609) 评论(0) 推荐(0)

Understanding Intel Ice Lake Processor

摘要：2021年4月7日，Intel正是发布自己的第三代志强可扩展处理器，Ice Lake相对于前面的两代有不小的提升，计算方面： On Package: Core个数，从上一代的28Core提升到了这一代的40Core，但是还是没有Chiplet的架构，而是大Die的设计； CPU的制程终于从14nm 阅读全文

posted @ 2021-04-10 10:29 kongchung 阅读(285) 评论(0) 推荐(0)

IBM Power10 CPU基础参数

摘要：SCM和DCM的区别：Power10分为两种封装，一个chip的Single Chip Module简称为SCM，两个chip的Dual Chip Module简称为DCM;SCM Power10的Core可以工作在4+GHz，而DCM Power10的Core只能工作在3.5+GHz； Core:下图示一个SCM的Power10的Die Shot，基于SAMSUNG 7nm的工艺；物理上有16个... 阅读全文

posted @ 2020-08-25 23:01 kongchung 阅读(2498) 评论(0) 推荐(0)

TPU-Google的张量处理单元

摘要：Tensor Processoring UnitTPU V1 20152CH的2133MHz的DDR3内存是Off Die的，一共8GiB；内存的带宽：2Channel*2133MHz*64bit/8/1000=34GB/s256*256=65536 8bit MAC 矩阵乘法单元700MHz，Peak ：65536*2（M/A）*700MHz=92T INT8 Operations/second... 阅读全文

posted @ 2020-07-03 23:56 kongchung 阅读(1525) 评论(0) 推荐(0)

芯片的Systolic Array 脉动阵列设计加速矩阵乘运算

摘要：什么是脉动阵列脉动阵列，是现在某些智能加速芯片的一种架构；由一组处理单元 Processor Elements组成；处理单元简称是PE，也经常简称为Cell；所有的Cell是用Mesh结构互连起来；每个Cell处理一系列的流经自己的数据；之后传递给邻居的Cell，大部分的Cell都是相同的操作。SIMD和脉动阵列的区别SIMD是和其相似的架构，但是SIMD如名字表达的那样，控制指令是唯一的，数据是... 阅读全文

posted @ 2020-07-02 21:34 kongchung 阅读(8544) 评论(0) 推荐(0)

Fugaku-基于ARM架构的超算集群

摘要：系统-Fugaku System名字的来源就是Mount Fuji，简单翻译就是富士山或者富岳的意思一个系统有396个满配的Rack和36个半配的Rack；一个Rack有384个Node(CPU)；那么Node数目就是396Full *384+36Half*192=152064+6912=158976个CPU;Rack高度2000mm，宽度800mm，深度是1400mm；存储分为三层第一层是全局文... 阅读全文

posted @ 2020-06-23 21:23 kongchung 阅读(2955) 评论(0) 推荐(0)

Intel_2020Q2_Data_Center_新品发布会

摘要：2020年6月19日，因为疫情也是在线的会议，下面是真正的slogan和会议的名字。但是我更加喜欢宣传片中的：百业流深，润物无声。言归正传，这次轻描淡写的一共发布了四个硬件产品：3rd Xeon SP for 4S/8S platformUPI的速度没变，数量有较大的提升；最高支持6个；Bfloat16的支持，还是和CLX一样；内存的通道数没提高，但是内存的频率可以提高到DDR4-3200MT/s... 阅读全文

posted @ 2020-06-20 22:29 kongchung 阅读(653) 评论(0) 推荐(0)

GTC 2020 Keynote

摘要：北京时间2020年5月14日，GTC 2020 Keynote上nVIDIA公司发布了一系列的硬件产品和软件平台或者解决方案；NVIDIA Tesla Ampere SXM A100 GPUPeak FP 64 9.7TFLOPS108个SM，每个SM包含32个FP64的计算单元，因此一个A100有108*32=3456个FP64；boost频率是1410MHz；那么双精度浮点运算性能=1410M... 阅读全文

posted @ 2020-05-23 23:08 kongchung 阅读(481) 评论(1) 推荐(0)

双-单-半精度浮点数的细节

摘要：半精度，单精度，双精度--在计算机中使用二进制近似值表示有理数的方式；阅读全文

posted @ 2020-03-20 23:41 kongchung 阅读(3241) 评论(0) 推荐(1)

随笔分类 - HardwareArch

公告