nvidia[GPU架构发展对比]


1 引言

方便检索

2 名词解释

FLOPS:“每秒浮点运算次数”,“每秒峰值速度”,是“每秒所执行的浮点运算次数”(floating-point operations per second)的缩写。所谓的“浮点运算”,实际上包括了所有涉及小数的运算。这类运算在某类应用软件中常常出现,而它们也比整数运算更花时间。现今大部分的处理器中,都有一个专门用来处理浮点运算的“浮点运算器”(FPU)。也因此FLOPS所量测的,实际上就是FPU的执行速度。而最常用来测量FLOPS的基准程式(benchmark)之一,就是Linpack。

  • 一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
  • 一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
  • 一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,(1太拉)
  • 一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
  • 一个EFLOPS(exaFLOPS)等于每秒一百京(=10^18)次的浮点运算,
  • 一个ZFLOPS(zettaFLOPS)等于每秒十万京(=10^21)次的浮点运算。

浮点精度:半精度,单精度,双精度。根据nvidia官方的白皮书里面涉及的:半精度为FP16(浮点数16位);单精度为FP32(浮点数32位);双精度为FP64(浮点数64位)。

INT8:8-bit的整数运算(一个字节),新增的增强8位整数支持是可以在一个周期内, 对打包在32-bit里的4个8位整数(记做:A0A1A2A3), 完成操作:Y = A0 * B0 + A1 * B1 + A2 * B2 + A3 * B3 + X其中Y和X均为32-bit整数, A和B均为8-bit整数.理论上INT8能以400%的性能(相比于float)完成8-bit整数的点乘和累加操作. 对最近流行的神经网络推导很有用途.

参考文献:

posted @ 2020-03-17 11:40  仙守  阅读(2395)  评论(0编辑  收藏  举报