乘法器之四（乘加器（Sum of multiplication））

3) 乘加器（Sum of multiplication）

乘加模式乘法器的运算结果就是一系列输入数据（乘数）乘以一系列被乘数所产生的部份积的和。

这种乘加结构易于实现MAC（乘-累加）函数，乘累加运算在FIR滤波器等应用中非常常见。乘法器

的每个输入数据（乘数）被乘到一个特定的系数（或者叫被乘数），然后把所有乘积项相加后得到最

终的乘法结果。

在乘加器模式下，每个输入总线每个时钟周期送一位到存储器的地址端口，低位先送。如果乘法器块有

四个输入总线（分别是A、B、C和D），那么第一个时钟送入的四个输入的最低位形成一个4位的 RAM

块地址。下一个时钟，送入四个输入总线的次低位形成RAM块的第二个4位地址值，依此类推。所以对

于一组n位宽度的输入总线，需要n个时钟来送入运算所需要的数据。在每个时钟周期，RAM块依次输

出该特定位和被乘数相乘运算的结果。

图14是用RAM LUT实现四个4位输入数据以及高达16位常系数的例子。根据不同的权位，移位累加每

个时钟从RAM块得到的部份积，总共需要花费6个时钟周期（四个时钟加载输入数据到RAM块，两个时

钟用于流水延时）来完成这种常系数乘法操作。部份积的每次移位累加增加一个进位位。当第四个部份

积累加完成后，乘法器产生一个22位的输出。输入数据的位宽决定了乘法器的输出位宽以及延时。

地址位数为16个，每个字为18位，

图15画出了实现图14所示乘加器的等效电路。

图14中的例子是四个4位的数据输入。因为M512 RAM块的大小是32X18 位，所以每个M512 RAM块实现图中的

系数时支持的最大输入位宽是5（2^5=32）。根据乘法器的输入数目、位宽，系数的数目、位宽以及需要的执行

速度的不同，所需的RAM块的数目也是不一样的。图14是一个只需一个M512 RAM块的例子。

图16显示了基于图14所示的例子的仿真结果。该例子有一级可选的流水进程，输入A的值中有一个是二进制数

“0001”，系数c0的值是3。

提醒：设计者可以选择减少流水的级数，不过如此会减小设计结果的Fmax。

表24和表25分别显示了用StratixII和Stratix器件实现图14所示的四输入、16位定系数乘加模式乘法器的结果。

表26和表27分别显示了用StratixII和Stratix器件实现四输入、16位变系数乘加模式乘法器的结果。

可以将多个M512块和（或者）M4K块组合在一起实现更大的乘法结构，这样就可以同时运算更多的

输入数据和系数的乘积。图17中的例子是用两个M512 RAM块实现八个4位输入数据、八个16位常

系数的乘法器。

同样也可以用M4K来实现乘法器，特别是当系数大于16位的时候。图18是用一个M4K实现七个16位输入数据乘以

一个20位常系数的乘法器。M4K RAM块的128根地址线对应于七个输入数据或者唯一的系数。执行七个16X20的

乘法，从M4K RAM块产生一个23位的输出。共需18个时钟周期来完成部份积的累加（16个时钟周期用于移位输入

数据到RAM块的地址端口，外加2个时钟周期用来流水延迟）。每次部份积相加，结果的位数会增加一位，这样乘法

器最终产生一个39位的输出结果。

posted on 2012-08-15 16:43 中国的孩子阅读(4064) 评论(0) 收藏举报

刷新页面返回顶部

FPGA Player