nvidia-docker

参考资料

https://github.com/NVIDIA/nvidia-docker/wiki/Installation#prerequisites

https://github.com/NVIDIA/nvidia-docker

安装最新的 1.0.0 RC3的时候报错

cpio read 失败未发现 /usr/bin/nvidia-docker

解决：安装RC2版本，

安装后并不支持最新的0.12的docker

所以再次安装RC3 (强制覆盖)

rpm -ivh nvidia-docker-1.0.0.rc.3-1.x86_64.rpm --force --nodeps

随后用 nvidia-docker run --rm nvidia/cuda nvidia-smi 测试

GPU isolation

NV_GPU=0,1 nvidia-docker run -ti nvidia/cuda nvidia-smi

使用tensorflow:lasted-gpu镜像有报错

https://github.com/tensorflow/tensorflow/issues/2525

更新到0.10镜像运行测试

tensorflow安装在image的 :/usr/local/lib/python2.7/dist-packages/tensorflow 目录下

NV_GPU=1 nvidia-docker run -it --restart=always 10.100.208.23:6000/tensorflow:0.10.0-gpu /bin/bash

运行cifar10_multi_gpu_train 发现只使用了一个gpu

新安装的一台机器遇到错误在docker-daemon日志中看到

/run/docker/plugins/nvidia-docker.sock/Plugin.Activate: Post http://%2Frun%2Fdocker%2Fplugins%2Fnvidia-docker.sock/Plugin.Activate: dial unix /run/docker/plugins/nvidia-docker.sock: connect: connection refused,

删除了 /run/docker/plugins/ 目录重启 service nvidia-docker restart

posted @ 2016-09-20 14:10 xuchenCN 阅读(1803) 评论(0) 编辑收藏举报

nvidia-docker

公告