05 2017 档案
摘要:为什么要使用共享内存呢,因为共享内存的访问速度快。这是首先要明确的,下面详细研究。 cuda程序中的内存使用分为主机内存(host memory) 和 设备内存(device memory),我们在这里关注的是设备内存。设备内存都位于gpu之上,前面我们看到在计算开始之前,每次我们都要在device
阅读全文
摘要:由上一节可知,在main函数中,cuda程序的并行能力是在add<<<N,1>>>( dev_a, dev_b, dev_c )函数中体现的,这里面设置的是由N个block的构成的计算网络即grid,每一个block里面有1个thread存在。那么这种选取有什么用意呢,如何针对自己的计算问题设置计算
阅读全文
摘要:cuda作为gpu计算中的代表,拥有着超级高的计算效率,其原因是gpu实际相当与一台超级并行机组,使用过MPI做并行计算的人们可能知道,所谓的并行计算,简单讲就是用多个U(计算单元)来完成一个U的计算任务,MPI中将其叫做核,我们知道一个cpu有一个或2,4,8个核,超级厉害的也就16个吧,原来人们
阅读全文
摘要:过去一段时间忙于论文写作中,完全忘了cura-engine这回事了,其实也是觉得cura-engine在深入学习细节作用不大。于是在此开始新的学习,那就是cuda。 接下里大部分时间都会用在cuda学习中,最终的目标是将cuda用于质点生成程序中,并有很好的加速效果。
阅读全文

浙公网安备 33010602011771号