Amine-GAN训练笔记

1. 安装tensorflow-gpu

查看cuda版本:Linux查看CUDA版本以及cudnn版本号
nvcc --version
10.0

安装python3.6、tensorflow-gpu=1.15.0
conda create --name tf1.15 python=3.6
pip install tensorflow-gpu=1.15.0
pip install opencv-python glob2 tqdm argparse numpy

测试是否安装成功:

import tensorflow as tf
hello = tf.constant("Hello TensorFlow")
sess = tf.Session()
print(sess.run(hello))
a = tf.constant(10)
b = tf.constant(32)
print(sess.run(a+b))

2. 训练

设置GPU的可见性:
export CUDA_VISIBLE_DEVICES=8

添加动态链接库路径:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH/usr/local/cuda-10.0/lib64
参考ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory

屏蔽tensorflow的warning信息:
export TF_CPP_MIN_LOG_LEVEL=2

将batch-size开到32,会发生OOM:

(1) Resource exhausted: OOM when allocating tensor with shape[32,128,128,128] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc

dmesg 命令查看内存分配情况,

3. 查看日志

除了使用 screen 守护进程,还可以使用tensorboard

查看tensorflow日志,必须指定文件夹,不能是文件
tensorboard --logdir=log
如果有多个tfevents文件,而只想展示其中某一个,可以为它单独新建一个文件夹

如果服务器6006端口没法查看,可以用frp内网穿透

posted @ 2021-12-19 19:32  Rogn  阅读(34)  评论(0编辑  收藏  举报