2017年2月14日

CUDA学习4 线程协作

摘要: 在CUDA学习3 Max pooling (python c++ cuda)中有一个2D grid的CUDA实现,用时141ms。 以下为2D grid 2D blocks实现,耗时进一步降低到16ms。 线程索引计算方式如上,此处需要的循环为(N,M,PH,PH),因此配置如下。(PH*PH=14 阅读全文

posted @ 2017-02-14 22:05 1357 阅读(325) 评论(0) 推荐(0)

导航