CUDA编程-性能优化
参考文档:
CUDA C++ Best Practices Guide
持续更新中。。。
指令优化
使用数学库
在速度胜过精度的情况时,可以考虑使用数学库函数接口。函数名称前带有__下划线的函数名,此类函数在硬件级别上的映射,速度更快,精度稍低。例如:__sinf(x)
另请注意,每当计算同一参数的正弦和余弦时,都应使用指令系列来优化性能:sincos
- 
__sincosf()用于单精度快速数学运算(见下一段)
- 
sincosf()用于常规单精度
- 
sincos()用于双精度
内存指令优化
尽量减少全局内存的使用。在可能的情况下,首选共享内存访问
内存指令包括从共享、本地或全局内存读取或写入的任何指令。访问未缓存的本地或全局内存时,内存延迟有数百个时钟周期。
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号