nvidia-docker
参考资料
https://github.com/NVIDIA/nvidia-docker/wiki/Installation#prerequisites
https://github.com/NVIDIA/nvidia-docker
安装最新的 1.0.0 RC3的时候报错
cpio read 失败 未发现 /usr/bin/nvidia-docker
解决:安装RC2版本,
安装后并不支持最新的0.12的docker
所以再次安装RC3 (强制覆盖)
rpm -ivh nvidia-docker-1.0.0.rc.3-1.x86_64.rpm --force --nodeps
随后用 nvidia-docker run --rm nvidia/cuda nvidia-smi 测试
GPU isolation
NV_GPU=0,1 nvidia-docker run -ti nvidia/cuda nvidia-smi
使用tensorflow:lasted-gpu镜像有报错
https://github.com/tensorflow/tensorflow/issues/2525
更新到0.10镜像运行测试
tensorflow安装在image的 :/usr/local/lib/python2.7/dist-packages/tensorflow 目录下
NV_GPU=1 nvidia-docker run -it --restart=always 10.100.208.23:6000/tensorflow:0.10.0-gpu /bin/bash
运行cifar10_multi_gpu_train 发现只使用了一个gpu
新安装的一台机器遇到错误 在docker-daemon日志中看到
/run/docker/plugins/nvidia-docker.sock/Plugin.Activate: Post http://%2Frun%2Fdocker%2Fplugins%2Fnvidia-docker.sock/Plugin.Activate: dial unix /run/docker/plugins/nvidia-docker.sock: connect: connection refused,
删除了 /run/docker/plugins/ 目录重启 service nvidia-docker restart