04 2013 档案
摘要:Kernels构件Kernels构件源于PGI Accelerator模型的region构件。嵌套kernels构件里的循环可能会被编译器转换成能在GPU上高效并行的部分。在这个过程中有三步。1:判断并行中遇到的循环。2:把抽象的并行转换成硬件上的并行。对于NVIDIA CUDA GPU, 它会把并行的循环映射到grid层次(blockIdx) 或 thread层次(threadIdx)。OpenACC申明, gang 对应grid, vector 对应thread。编译器可能会通过strip-mining(一种拆分循环利用缓存的技术)把一层的循环映射到多层。3:编译器生成并优化代码。在ker
阅读全文

浙公网安备 33010602011771号