随笔分类 -  parallel computing

parallel computing including OpenMP, MPI and GPGPU
摘要:Task 用于指定某一段程序,并放置在任务池中,由进程池中的空闲的进程执行该任务。 例如(https://ppc.cs.aalto.fi/ch3/more/)。 注意以下例子中,C(7)是和C(1)在同一个核中执行的,说明,进入了处于 team_barrier的核才有机会调用omp task 运行函 阅读全文
posted @ 2022-11-03 19:46 cofludy 阅读(593) 评论(0) 推荐(0)
摘要:1 #include <stdio.h> 2 #include <math.h> 3 #include <pthread.h> 4 #include<stdio.h> 5 #include<iostream> 6 #include<stdlib.h> 7 #include<time.h> 8 9 # 阅读全文
posted @ 2022-11-03 10:00 cofludy 阅读(151) 评论(0) 推荐(0)
摘要:【转载】https://blog.csdn.net/zhou_438/article/details/109162654 通常情况下,停止进程显存会释放 但是如果在不正常情况关闭进程,可能不会释放,这个时候就会出现这样的情况: nvidia-smi 显示没有在跑的进程,但是显存占用很多。 解决方案: 阅读全文
posted @ 2020-11-13 21:10 cofludy 阅读(5483) 评论(0) 推荐(0)
摘要:1. 关闭 X service sudo service lightdm stop 2. 安装 NVIDIA 最新的驱动 3. 安装 NVIDIA - cuda 4. 设置环境变量: sudo vim /etc/environment 5. 安装 pgi fortran 关于更新版本若干问题: 如果 阅读全文
posted @ 2018-06-20 10:54 cofludy 阅读(397) 评论(0) 推荐(0)
摘要:代码中展示了使用构造类型和不使用构造类型的例子 阅读全文
posted @ 2018-04-25 18:15 cofludy 阅读(1471) 评论(0) 推荐(0)
摘要:一。基本的MPI程序由六个子程序组成,即1.初始化,2.获取当前进程编号,3.获取全域的进程数量,4.发送消息,5. 接收消息,6.结束 使用这六个基本的MPI程序就可以实现一个完整的MPI程序,以后所有的高级API都是从这六个API扩展而来的。 二。MPI常用的编程思想有两种,一是对等式编程,二是 阅读全文
posted @ 2018-04-11 17:01 cofludy 阅读(989) 评论(0) 推荐(0)
摘要:#include #include // stdio functions are used since C++ streams aren't necessarily thread safe // a simple kernel that simply increments each array element by b __global__ void kernelAddCo... 阅读全文
posted @ 2018-03-20 13:18 cofludy 阅读(4796) 评论(0) 推荐(1)
摘要:1. 将所有的 CFU directive 改写成cuda kernel 2. 将所有的符号(包括边界条件的指示符号等) 全部换成 多GPU 符号 做完这一步需要检查一下程序是否正确 3. 将所有的GPU上的变量申请全部换成多GPU的变量符号 4. 将中部边界条件添加上。 完成。 阅读全文
posted @ 2018-03-16 17:43 cofludy 阅读(591) 评论(0) 推荐(0)
摘要:这里是官方的一篇很好的帖子,里面有实例和讲解 managed memory 的使用方法。 http://www.pgroup.com/lit/articles/insider/v6n1a2.htm 可以直接看官方的文档,排版比较好,为了防止以后这篇文档丢失,我复制在下面,有机会再整理一下。 CUDA 阅读全文
posted @ 2018-02-26 17:22 cofludy 阅读(1011) 评论(0) 推荐(0)
摘要:刚刚GPU遇到一个神奇的bug。 运行 nvidia-smi 报错: Failed to initialize NVML: Driver/library version mismatch 运行nvidia 官方的程序,报错 no CUDA-capable device is detected 如下图 阅读全文
posted @ 2018-01-10 19:48 cofludy 阅读(11668) 评论(0) 推荐(0)
摘要:科学计算显卡的几个主要性能指标: 1、运算能力:FLOPS 每秒浮点运算次数,TFLOPS表示每秒万亿(10^12)次浮点计算; 2、计算性能: 3、显存大小:显存大小也决定了实验中能够使用的样本数量和模型复杂度。 4. cuda 核心数量 1、CUDA compute capability对比(c 阅读全文
posted @ 2017-08-14 10:21 cofludy 阅读(3222) 评论(0) 推荐(0)