cuda技巧

1.在有数据量不大的矩阵计算的时候可以先乘了之后传入cpu(因为cuda矩阵相乘很麻烦)
// 计算P阵
Eigen::Matrix<float, 3, 4> A = B * C;
cudaMemcpy(&d_p_vec[i * matrixSize], A.data(), p_matSize, cudaMemcpyHostToDevice);

2.每个核函数后可以加__syncthreads();函数同步防止线程混乱

3.多张图片可以一把全部存入一维数组中,查找时用图片的尺寸作偏移量。

posted @ 2022-03-18 21:06  开锁球  阅读(35)  评论(0)    收藏  举报