CUDA笔记（11）

CUDA提供了一种cudaEvent_t的类型，这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间

使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50%

__constant__将把变量的访问限制为只读。在接受了这种限制后，可节约内存带宽的原因：

(下面是贴了书上的内容)

对常量内存的单次操作可以广播到其他的临近线程，这将节约15次读取操作。

常量内存的数据将缓存起来，因此对相同地址的连续读操作将不会长生额外的内存通信量。

深层原因：当处理常量内存时，NVIDIA硬件将把单次内存读取操作广播到每个半线程束。在半线程束中包含了16个线程，即线程束中线程数量的一半。如果在半线程束中的每个线程都从常量内存的相同地址上读取数据，那么GPU只会产生一次读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据，那么这种方式产生的内存流量只是使用全局内存时的1/16.

****

下面就是神秘的纹理。

posted @ 2016-01-01 14:34 [6G]蓝色の云风阅读(213) 评论(0) 收藏举报

刷新页面返回顶部

CUDA笔记（11）

公告