CUDA笔记(11)

CUDA提供了一种cudaEvent_t的类型,这种类型Event可以统计GPU上面某一个任务或者代码段的精确运行时间

使用常量内存的光线跟踪器的性能比使用全局内存的性能提升了50%

__constant__将把变量的访问限制为只读。在接受了这种限制后,可节约内存带宽的原因:

(下面是贴了书上的内容)

对常量内存的单次操作可以广播到其他的临近线程,这将节约15次读取操作。

常量内存的数据将缓存起来,因此对相同地址的连续读操作将不会长生额外的内存通信量。

深层原因:当处理常量内存时,NVIDIA硬件将把单次内存读取操作广播到每个半线程束。在半线程束中包含了16个线程,即线程束中线程数量的一半。如果在半线程束中的每个线程都从常量内存的相同地址上读取数据,那么GPU只会产生一次读取请求并在随后将数据广播到每个线程。如果从常量内存中读取大量的数据,那么这种方式产生的内存流量只是使用全局内存时的1/16.

****

下面就是神秘的纹理。

posted @ 2016-01-01 14:34  [6G]蓝色の云风  阅读(196)  评论(0编辑  收藏  举报