CUDA编程-性能优化

参考文档:

CUDA C++ Best Practices Guide
持续更新中。。。

指令优化

使用数学库

在速度胜过精度的情况时,可以考虑使用数学库函数接口。函数名称前带有__下划线的函数名,此类函数在硬件级别上的映射,速度更快,精度稍低。例如:__sinf(x)
另请注意,每当计算同一参数的正弦和余弦时,都应使用指令系列来优化性能:sincos

  • __sincosf()用于单精度快速数学运算(见下一段)

  • sincosf()用于常规单精度

  • sincos()用于双精度

内存指令优化

尽量减少全局内存的使用。在可能的情况下,首选共享内存访问
内存指令包括从共享、本地或全局内存读取或写入的任何指令。访问未缓存的本地或全局内存时,内存延迟有数百个时钟周期。

posted @ 2023-11-22 22:20  CV卡卡西  阅读(83)  评论(0)    收藏  举报