nvidia-docker

参考资料

https://github.com/NVIDIA/nvidia-docker/wiki/Installation#prerequisites

https://github.com/NVIDIA/nvidia-docker

安装最新的 1.0.0 RC3的时候报错

cpio read 失败 未发现 /usr/bin/nvidia-docker

解决:安装RC2版本,

安装后并不支持最新的0.12的docker

所以再次安装RC3 (强制覆盖)

rpm -ivh nvidia-docker-1.0.0.rc.3-1.x86_64.rpm  --force --nodeps

随后用  nvidia-docker run --rm nvidia/cuda nvidia-smi 测试

 

GPU isolation

NV_GPU=0,1 nvidia-docker run -ti nvidia/cuda nvidia-smi

 

使用tensorflow:lasted-gpu镜像有报错

https://github.com/tensorflow/tensorflow/issues/2525

更新到0.10镜像运行测试

tensorflow安装在image的 :/usr/local/lib/python2.7/dist-packages/tensorflow 目录下

 

NV_GPU=1 nvidia-docker run -it --restart=always 10.100.208.23:6000/tensorflow:0.10.0-gpu /bin/bash

 

运行cifar10_multi_gpu_train 发现只使用了一个gpu

 

新安装的一台机器遇到错误 在docker-daemon日志中看到

/run/docker/plugins/nvidia-docker.sock/Plugin.Activate: Post http://%2Frun%2Fdocker%2Fplugins%2Fnvidia-docker.sock/Plugin.Activate: dial unix /run/docker/plugins/nvidia-docker.sock: connect: connection refused,

删除了 /run/docker/plugins/ 目录重启 service nvidia-docker restart 

 

posted @ 2016-09-20 14:10  xuchenCN  阅读(1803)  评论(0编辑  收藏  举报