07 2017 档案

profile
摘要:今天算是切身体会到nvcc编译器的坑爹了,真心在瞎编。对于这点,可以用nv的profile 反汇编出nvcc编译出的目标代码,若想和源码对应,则需加上-lineinfo编译选项。 在profile的individual kernel——perform computing analysis——inst 阅读全文

posted @ 2017-07-20 21:09 d神 阅读(210) 评论(0) 推荐(0)

关于内存带宽的疑问
摘要:64位机一次访存的内存大小为64bit。而float、int 均为32bit,所以当进行计算时,每次取和存2个float,撑满带宽,(不清楚这里是否需要2个float内存连续,不连续是不是性能没有提升)。 然而我在进行稀疏矩阵向量乘时,采用的csr格式,每两个一组计算比每个元素单独计算反而会慢一点。 阅读全文

posted @ 2017-07-10 21:00 d神 阅读(135) 评论(0) 推荐(0)

导航