随笔分类 -  CUDA编程

CUDA编程总结
摘要:Cython与CUDA之Add本文介绍了使用CUDA和Cython来实现一个CUDA加法算子的方法,并介绍了使用CUDA参数来估算性能极限的算法。经过实际测试,核函数部分的算法性能优化空间已经不是很大了,更多时候可以考虑使用Stream来优化Host和Device之间的数据传输。 阅读全文
posted @ 2025-03-05 09:59 DECHIN 阅读(460) 评论(0) 推荐(0)
摘要:Cython与CUDA之BatchGather以学习CUDA为目的,接上一篇关于Cython与CUDA架构下的Gather算子实现,这里我们加一个Batch的维度,做一个BatchGather的简单实现。 阅读全文
posted @ 2025-03-03 15:54 DECHIN 阅读(410) 评论(0) 推荐(0)
摘要:CUDA时长统计这篇文章主要介绍了一个CUDA入门的技术:使用CUDA头文件写一个专门用于CUDA函数运行时长统计的宏,这样就可以统计目标Kernel函数的运行时长。可以直接在CUDA中打印相应的数值,也可以回传到Cython或者Python中进行打印。 阅读全文
posted @ 2025-02-28 09:45 DECHIN 阅读(526) 评论(0) 推荐(0)
摘要:Cython与CUDA之Gather本文使用了Cython作为封装函数,封装一个CUDA C实现的Gather算子,然后通过Python去调用,用这种方法实现一个比较Pythonic的CUDA Gather函数的实现和调用。 阅读全文
posted @ 2025-02-27 10:20 DECHIN 阅读(259) 评论(0) 推荐(1)
摘要:CUDA异常捕获本文主要介绍了在CUDA编程的实践中,增加一个异常捕获的宏模块,以保障CUDA项目结果的准确性。主要代码内容参考了樊哲勇所著的《CUDA编程基础与实践》,是一本很好的CUDA编程入门书籍。 阅读全文
posted @ 2025-02-25 15:55 DECHIN 阅读(389) 评论(0) 推荐(0)