随笔分类 -  超级计算高性能计算集群

摘要:在我的超算集群里,有台服务器故障报修,主板坏了,更换主板后,无法识别网卡,用命令ifconfig -a 查看只显示lo loopback 127.0.0.1,以及eth7,eth8,eth9等没有网卡的信息,如此的话,导致服务器和集群别的节点服务器都无法ping通 原因和解决办法: 系统加载网卡驱动 阅读全文
posted @ 2016-08-04 22:47 王能武 阅读(11856) 评论(2) 推荐(1)
摘要:简介:超算的parastor存储通过NFS网络文件系统共享给用户使用,由于存储空间使用率过高,达到了90%以上,出现了一些问题 问题一:用户在用fluent软件调用存储的数据的时候,一直调用不了 问题二:用户CST软件计算完的作业在回传给mc主控节点的时候,也即是回传计算结果到存储目录的时候,一直在 阅读全文
posted @ 2016-07-22 20:31 王能武 阅读(336) 评论(0) 推荐(0)
摘要:MPICH是目前应用最广泛的免费MPI系统,也是运行在大部分机群系统的MPI并行环境 MPICH的网址是:http://www.mcs.anl.gov/mpi/mpich,从此处可以下载源程序mpich.tar.gz 下面以四台机器为机群为例说明MPICH的安装和配置: 1在四台机器上/etc/ho 阅读全文
posted @ 2016-07-20 18:47 王能武 阅读(1378) 评论(0) 推荐(0)
摘要:简介:在超级计算并行计算中,消息传递并行程序设计密切相关的一个概念就是进程,正是由于进程之间可以通信,才决定了并行程序设计平台的出现 1 进程 进程可表示为四元组,也即是(P,C,D,S), 其中P是程序的代码,C是进程的控制状态,D是进程的数据,S是进程的执行状态。任何进程都和程序联系在一起,程序 阅读全文
posted @ 2016-07-20 14:30 王能武 阅读(1055) 评论(0) 推荐(0)
摘要:超算上一些重要角色节点: node100 node101 (lsf作业调度系统节点,和PAC网站页面管理) node108 node105 (NIS服务主从节点) node166 (parastor并行存储 MGR节点) 备份策略:备份可以通过定时计划任务 /etc/crontab 来进行备份,备份 阅读全文
posted @ 2016-07-19 18:51 王能武 阅读(492) 评论(0) 推荐(0)
摘要:基础点: CST DC MC主控节点配置文件:/etc/xdg/CST AG/CST DC Main Control2013.conf CST DC SS求解器节点配置文件:/etc/xdg/CST AG/CST DC Solver Control2013.conf MC进程:lsb-cst-mai 阅读全文
posted @ 2016-07-19 16:52 王能武 阅读(1321) 评论(0) 推荐(0)
摘要:简介:LSF机群作业管理系统是曙光公司自己的一套作业管理系统,采用B/S架构,直接在网页管理界面就可以管理整个作业和作业节点; 1 LSF常用作业管理命令: 作业提交bsub 查看自己运行的所有作业的情况bjobs 跟踪某任务屏幕输出bpeek bkill 杀死某个作业 bqueues作业队列情况 阅读全文
posted @ 2016-07-19 15:50 王能武 阅读(3172) 评论(0) 推荐(0)
摘要:1 内存泄漏的原因:应用程序在占用内存后,退出时没有及时的放出内存,导致没有放出的这块内存不能被其他程序使用,从而出现内存变小,泄漏问题;终究原因其实就是程序没有写好。 2 内存泄漏的判断:可以通过shell脚本检测出节点的内存大小,并比对节点已安装的内存大小,如果小于节点原始内存大小,则表示内存出 阅读全文
posted @ 2016-07-19 13:33 王能武 阅读(725) 评论(0) 推荐(0)
摘要:方法:通过镜像其他节点来进行操作系统的恢复 1 把需要修复的系统盘插入到正常节点去,然后通过fdisk -l 查看磁盘的系统名是多少,如果假设为/dev/sdc 2 这个时候可以输入命令进行光盘数据的复制:dd if=/dev/sda of=/dev/sdc bs=1M &(&符号表示在后台进行复制 阅读全文
posted @ 2016-07-18 10:26 王能武 阅读(387) 评论(0) 推荐(0)
摘要:问题:超算节点上安装的Feko软件不是正版软件,需要破解,有时候license过期,会导致节点软件用不了,这样的话,作业在这个节点上运行会出现错误,需要重新破解,然后验证破解成功与否 解决:: 1在lsf master 主节点/opt/lsf/conf/lsbbatch/kc hpc/configd 阅读全文
posted @ 2016-07-13 19:26 王能武 阅读(597) 评论(0) 推荐(0)
摘要:问题:CST DC作业主要涉及到前端节点(登陆节点),主控制器,和求解器,也即是frontend(登陆节点) DC maincontrol(MC节点) DC Solver Servers(计算节点),没有数据返回,可能是计算节点和MC节点失去连接,或者MC和登陆节点失去连接,或者节点失去响应和假死状 阅读全文
posted @ 2016-07-13 19:07 王能武 阅读(734) 评论(0) 推荐(0)
摘要:(1)故障问题:用户的CST DC(分布式计算作业)作业出现解压缩错误, 提示如下: error while decompressing: Extracted file:.................. No space left on device. 原因和解决方案:这是用户或者用户组的磁盘配 阅读全文
posted @ 2016-07-13 18:31 王能武 阅读(528) 评论(0) 推荐(0)