随笔分类 -  CUDA并行算法

摘要:矩阵乘法非常适合在GPU上并行运行,但是使用GPU并行后能获得多大的性能提升?本文将通过一些实验分析CUDA程序的性能。本文主要记录了本人测试CUDA程序性能的结果,并对结果进行了分析,从测试结果和分析可以为并行程序和优化性能带来一些启示。 阅读全文
posted @ 2016-12-02 20:59 张朝龙(行之) 阅读(7605) 评论(0) 推荐(0)
摘要:本文首先简要介绍了卷积运算,然后使用Python实现了卷积运行的代码,接着讨论了基于FFT的快速卷积算法,并使用Python实现了FFT卷积,接着对直接卷积和基于FFT的快速卷积算法的性能进行了分析,从实验结果可以看出,FFT卷积相比直接卷积具有更快的运行速度。最后,基于CUDA实现了直接卷积算法,并且使用cuFFT和thrush在CUDA平台实现了基于FFT的快速卷积算法。 阅读全文
posted @ 2016-07-06 19:20 张朝龙(行之) 阅读(24051) 评论(0) 推荐(1)
摘要:"CUDA并行算法系列之规约" 前言 规约是一类并行算法,对传入的N个数据,使用一个二元的符合结合律的操作符⊕,生成1个结果。这类操作包括取最小、取最大、求和、平方和、逻辑与/或、向量点积。规约也是其他高级算法中重要的基础算法。 除非操作符⊕的求解代价极高,否则规约倾向于带宽受限型任务(bandwi 阅读全文
posted @ 2016-06-15 19:34 张朝龙(行之) 阅读(19778) 评论(1) 推荐(0)

本博客文章采用“署名-非商业性使用-禁止演绎”协议,协议详细内容请参考 CC BY-NC-ND 4.0