摘要:
利用shared memory计算,并避免bank conflict;通过每个block内部规约,然后再把所有block的计算结果在CPU端累加 代码: 阅读全文
posted @ 2017-11-06 22:48
BlueOceans
阅读(699)
评论(0)
推荐(0)
摘要:
采用shared memory加速 代码 合并访存:tile_A按行存储,tile_B按列存储,sum=row_tile_A * row_tile_B 阅读全文
posted @ 2017-11-06 21:28
BlueOceans
阅读(721)
评论(0)
推荐(0)

浙公网安备 33010602011771号