cuda技巧
1.在有数据量不大的矩阵计算的时候可以先乘了之后传入cpu(因为cuda矩阵相乘很麻烦)
// 计算P阵
Eigen::Matrix<float, 3, 4> A = B * C; cudaMemcpy(&d_p_vec[i * matrixSize], A.data(), p_matSize, cudaMemcpyHostToDevice);
2.每个核函数后可以加__syncthreads();函数同步防止线程混乱
3.多张图片可以一把全部存入一维数组中,查找时用图片的尺寸作偏移量。