摘要: Memorykernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的,将block的维度设置为warp大小的一半会导致load efficiency降低,这个问题无法用warp的调度或者并行性来解释。根本原因是获取global memory的方式很差劲。众所周知,memory... 阅读全文
posted @ 2015-06-09 22:17 苹果妖 阅读(11495) 评论(4) 推荐(3) 编辑