CUDA - 随笔分类 - 赶紧学习

线程结构 & 索引

摘要：概念参考链接存储带宽：在一定时间内从DRAM读出或写入的数据量延迟：响应一个获取内存的请求所花费的时间，这个时间通常是上百个处理器周期 SM, SP, Grid, Block, thread, warp： SM,SP是硬件结构； Grid, Block, thread是软件概念从硬件角度讲：阅读全文

posted @ 2021-08-25 11:53 赶紧学习阅读(467) 评论(0) 推荐(1)

Share Memory & Bank Conflict

摘要：共享存储器 share memory是MP拥有的资源，因为它是一个片上存储器，所以访问共享存储器比本地存储器和全局存储器要快得多。实际上共享存储器的延迟大约比没有缓存的全局存储器低100倍(假设线程之间没有bank冲突)。共享存储器被分配给每个线程块，所以块内的线程可以访问同一个共享存储器。线程可以阅读全文

posted @ 2021-08-25 11:51 赶紧学习阅读(2581) 评论(0) 推荐(1)

warp深度解析

摘要：逻辑上，CUDA中所有thread是并行的，但是，从硬件的角度来说，实际上并不是所有的thread能够在同一时刻执行，接下来我们将深入学习和了解有关warp的一些本质。 1. Warps & Thread Blocks warp是SM的基本执行单元。一个warp包含32个并行thread，这32个t 阅读全文

posted @ 2021-08-25 11:38 赶紧学习阅读(3691) 评论(0) 推荐(0)

通过CUDA deviceQuery分析NVIDIA显卡性能

摘要：Tesla K20m主要参数 Total amount of global memory: 4800 MBytes (5032706048 bytes) Total amount of constant memory: 64KB(65536 bytes) Total amount of shared 阅读全文

posted @ 2021-08-25 11:22 赶紧学习阅读(1186) 评论(0) 推荐(0)

CUDA学习笔记

摘要：头文件 // CUDA runtime #include <cuda_runtime.h> // helper functions and utilities to work with CUDA #include <helper_functions> #include <helper_cuda.h> 阅读全文

posted @ 2021-08-25 11:20 赶紧学习阅读(842) 评论(0) 推荐(0)

赶紧学习

随笔分类 - CUDA

公告