摘要:
GPU进行卡间通信/多机通信的算法简介 阅读全文
posted @ 2024-06-17 19:56
SunStriKE
阅读(347)
评论(0)
推荐(0)
摘要:
在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写. 阅读全文
posted @ 2024-06-17 15:31
SunStriKE
阅读(2288)
评论(0)
推荐(1)

浙公网安备 33010602011771号