nvidia[GPU架构发展对比]

1 引言

方便检索

2 名词解释

FLOPS：“每秒浮点运算次数”，“每秒峰值速度”，是“每秒所执行的浮点运算次数”（floating-point operations per second）的缩写。所谓的“浮点运算”，实际上包括了所有涉及小数的运算。这类运算在某类应用软件中常常出现，而它们也比整数运算更花时间。现今大部分的处理器中，都有一个专门用来处理浮点运算的“浮点运算器”（FPU）。也因此FLOPS所量测的，实际上就是FPU的执行速度。而最常用来测量FLOPS的基准程式（benchmark）之一，就是Linpack。

一个MFLOPS（megaFLOPS）等于每秒一百万（=10^6）次的浮点运算，
一个GFLOPS（gigaFLOPS）等于每秒十亿（=10^9）次的浮点运算，
一个TFLOPS（teraFLOPS）等于每秒一万亿（=10^12）次的浮点运算，(1太拉)
一个PFLOPS（petaFLOPS）等于每秒一千万亿（=10^15）次的浮点运算，
一个EFLOPS（exaFLOPS）等于每秒一百京（=10^18）次的浮点运算，
一个ZFLOPS（zettaFLOPS）等于每秒十万京（=10^21）次的浮点运算。

浮点精度：半精度，单精度，双精度。根据nvidia官方的白皮书里面涉及的：半精度为FP16（浮点数16位）；单精度为FP32（浮点数32位）；双精度为FP64（浮点数64位）。

INT8：8-bit的整数运算(一个字节)，新增的增强8位整数支持是可以在一个周期内, 对打包在32-bit里的4个8位整数(记做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均为32-bit整数, A和B均为8-bit整数.理论上INT8能以400%的性能(相比于float)完成8-bit整数的点乘和累加操作. 对最近流行的神经网络推导很有用途.

参考文献：

google搜索【"Architecture Whitepaper" site:nvidia.com】
[浮点数运算] FLOPS
[所有型号简单链接] cuda-gpus
[google][whitepaper nvidia filetype:pdf]
nvidia/white-papers
[费米&开普勒&&麦克斯韦等架构白皮书] NVIDIA's logical pipeline
[tesla 产品文献] tesla-product-literature
[fermi架构 pdf] fermi-gpu-architecture
[fermi架构 pdf] fermi-gpu-architecture
[kepler架构 pdf] kepler-gpu-architecture
[kepler架构 pdf] kepler-gk110-gpu-architecture
[maxwell架构 pdf] maxwell-gpu-architecture
[gtx 980白皮书&Maxwell] GTX_980_Whitepaper
[gtx 1080白皮书] NVIDIA GeForce GTX 1080
[pascal架构] pascal-gpu-architecture
[pascal架构 pdf] pascal-gpu-architecture
[volta架构] volta-gpu-architecture
[volta架构 pdf] volta-gpu-architecture
[volta架构 pdf] volta-gpu-architecture
[turing架构白皮书 pdf] NVIDIA-Turing-Architecture-Whitepaper
[Ampere架构 pdf]nvidia-ampere-architecture-whitepaper
[Hopper架构 pdf] NVIDIA Grace Hopper Superchip Architecture
[Hopper架构 pdf] NVIDIA DGX GH200 AI Supercomputer
[显卡之间对比] WIN10 X64下GTX1080TI 深度学习平台搭建简单教程及晒单
[GPU调度]GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed∗

posted @ 2020-03-17 11:40 仙守阅读(2549) 评论(0) 收藏举报

刷新页面返回顶部

仙守

最美的不是下雨天,是曾与你躲过雨的屋檐!

nvidia[GPU架构发展对比]

1 引言

2 名词解释

公告