摘要:
先来看一个普通main函数的完整执行过程(以a=b problem为例) int main() { int a = 2; int b = 3; int c = a + b; } 其risc-v(rv32)的汇编如下 main: addi sp,sp,-32 # 将栈指针sp向下移动32个字节,预留栈 阅读全文
摘要:
如下图,将多个执行相同核函数的进程通过cuda流来使他们并发执行,提升效率 这很像cpu的流水线 想让下面这个核函数执行两次,每次都是不同的参数 我们需要用到cuda的流来并发的执行提升效率 __global__ void kernel( int *a, int *b, int *c ) { int 阅读全文