天河服务器申请及配置
申请
- 访问如下链接 https://cloud.nscc-gz.cn/auth/login/
- 输入用户名及密码
- 登入后界面如下, Instance 显示了目前该账户下已存在的服务器
- Instance Name 服务器名称
- Image 服务器系统镜像来源信息
- Flavor 服务器硬件配置,在申请服务器时进行选择
- IP 服务器内网 IP 例如 10.xx.xx.24
- Status 服务器目前状态,active 为开启状态
- Created 系统创建时间
- Updated 系统更新时间
- Actions 这里包含了系统主要操作(重启,关机,打开控制台等)
- 点击 create instance
- 服务器硬件类型选择
- Instance Name 实例名 ,与系统登入后界面的意义相同
- Hostname 主机名, 服务器名称,对于linux系统来说就是 @之后的名称,如下图的 “neu-gpu”
- Instance Count 实例个数
- Create Policy 这个是无法改动的
- Type 选是否含有 GPU
- Instance Name 实例名 ,与系统登入后界面的意义相同
- Flavor 可以选择的机器硬件配置 主要需要关注 CPU 核数, RAM 内存大小。最前面简称, 例如 12C24G_m4000 为 12 核 cpu, 24G 内存,m4000为显卡型号,有两种 m4000 和 k80. 在type 为 general 时无后面的GPU型号.
-
Select Boot Source 默认Image 即可
-
Source 为系统类型。含有 Des 的系统,带有桌面.一般选择 ubuntu1604.
选择完成后,点击 next -
Network 界面,
- Select Network 只有一个,选择即可。
- Select Subnet 不需要配置
- Firewall 不需要配置。
选择完成后,点击 next
-
Login
- Admin Password 为管理员密码设置,按要求自行设置。
- Key Pairs 一般不需要配置。
-
所有配置完成后点击 create 即可创建
-
等待系统几分钟后,会新建一个实例,并出现在列表中。
-
点击右侧 acitions 会弹出 可行的操作。主要用到的是 console, reboot.
-
console 主要用于初期配置,完成系统创建后,尽快联系超算工作人员(cloud.service@nscc-gz.cn),为新的服务器建立内外网络映射。方便后面配置ssh登录, 上传代码数据等。
-
配置
初次登录系统推荐:新建一个个人用户,并为其设置sudo 权限,使用该用户配置系统。尽量避免使用root,root权限过高,防止发生意外。
conda 安装比较方便,但是里面的软件版本一般也不会是最新的,可能出现问题。手动安装较为繁琐,但能使用最新软件版本。
显卡驱动更新
天河显卡预先安装的显卡驱动版本较旧,与cuda所需要的驱动无法匹配,需要手动更新显卡驱动。具体流程如下
sudo apt-get purge nvidia-* # 移除旧版本驱动
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-418 # 安装 所需版本驱动,目前tensorflow 2.x 需要 418 版本的驱动
更新显卡驱动后,通过重启来使其生效。
conda 安装
- 进入个人家目录
- 下载 conda。若服务器没有桌面,可使用如下命令下载
wget https://repo.continuum.io/archive/Anaconda3-2020.07-Linux-x86_64.sh
最后的文件名,可根据需要选择,该网址列出了可选的版本。 - 在家目录执行
bash Anaconda3-2020.07-Linux-x86_64.sh
- 一直回车即可,安装路径一般为
/home/username/Anaconda3
, username 为用户名 - 安装完毕后
source .bashrc
激活环境 - 安装tensorflow 并新建环境
conda create -n tf-gpu tensorflow-gpu
conda activate tf-gpu
激活tensorflow 环境。- conda 更换为国内软件源
参考
手动安装
非GPU配置
对于不含GPU的服务器,直接安装需要的tensorflow版本即可, 可以按照tensorflow 官方给出的配置方法。一般流程如下
- 安装 python3
- 安装 对应的tensorflow 版本
GPU 配置
ssh登录
天河工作人员收到建立网络映射邮件后,会为你新建的机器建立外部IP,并通过邮件告知。收到回复邮件后,可使用自己熟悉的ssh软件, 输入外网IP, 外网端口进行ssh登录。一般,回复邮件中IP信息格式如下
需要注意的问题
- 更新显卡驱动后,会发生图形界面无法登录的情况。日常实验如果对桌面需求不大,可以忽略。
- 尽量在工作日与工作人员沟通