收藏:①极市开发DeepLearning ②Git使用

DeepRec 安装和使用(大规模离散DNN)

本文主要记录自己参考 DeepRec 官方文档(简介 - DeepRec latest 文档)进行 DeepRec 安装的过程。

安装 DeepRec 有两种方式:

  1. 使用 Release Docker Image。无需自行编译,镜像系统内已经安装了DeepRec。
  2. 使用 Base/Dev Docker Image。需要在镜像系统内下载源代码,然后编译和安装 DeepRec。

一、Release Docker Image 安装和使用

1、安装 Docker,参考:Docker 教程 | 菜鸟教程

2、拉取镜像

docker pull alideeprec/deeprec-release:deeprec2208u1-cpu-py36-ubuntu18.04
docker run -it alideeprec/deeprec-release:deeprec2208u1-cpu-py36-ubuntu18.04

3、下载源代码

git clone https://github.com/alibaba/DeepRec

4、cd 到 deeprec/modelzoo/wide_and_deep/data 目录,下载训练集和验证集文件。

wget https://storage.googleapis.com/dataset-uploader/criteo-kaggle/large_version/train.csv
wget https://storage.googleapis.com/dataset-uploader/criteo-kaggle/large_version/eval.csv

5、cd 到 deeprec/modelzoo/wide_and_deep 目录,执行以下命令运行模型。

python train.py

可能会出现以下问题:

root@219b3b01083e:/home/deeprec/modelzoo/wide_and_deep# python train.py
Illegal instruction (core dumped)

主要原因是 TensorFlow 的问题。网上说是系统支持指令集的问题(1.5版本后需要CPU支持avx),看了下自己的CPU是支持avx指令集的,这个问题暂时还没有解决。只能使用第二种方法从源代码编译安装了(已成功安装)。

root@219b3b01083e:/home/deeprec/modelzoo/wide_and_deep# python
Python 3.6.12 |Anaconda, Inc.| (default, Sep  8 2020, 23:10:56)
[GCC 7.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow as tf
Illegal instruction (core dumped)

 

cat /proc/cpuinfo

 

processor	: 19
vendor_id	: GenuineIntel
cpu family	: 6
model		: 165
model name	: Intel(R) Core(TM) i9-10900 CPU @ 2.80GHz
stepping	: 5
microcode	: 0xf0
cpu MHz		: 2800.000
cache size	: 20480 KB
physical id	: 0
siblings	: 20
core id		: 9
cpu cores	: 10
apicid		: 19
initial apicid	: 19
fpu		: yes
fpu_exception	: yes
cpuid level	: 22
wp		: yes
flags		: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid mpx rdseed adx smap clflushopt intel_pt xsaveopt xsavec xgetbv1 xsaves dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp pku ospke md_clear flush_l1d arch_capabilities
vmx flags	: vnmi preemption_timer posted_intr invvpid ept_x_only ept_ad ept_1gb flexpriority apicv tsc_offset vtpr mtf vapic ept vpid unrestricted_guest vapic_reg vid ple shadow_vmcs pml ept_mode_based_exec
bugs		: spectre_v1 spectre_v2 spec_store_bypass swapgs itlb_multihit srbds mmio_stale_data retbleed
bogomips	: 5599.85
clflush size	: 64
cache_alignment	: 64
address sizes	: 39 bits physical, 48 bits virtual
power management:

二、Base/Dev Docker Image 安装和使用

1、拉取镜像

docker pull alideeprec/deeprec-base:deeprec-base-cpu-py36-ubuntu18.04

2、下载源代码

git clone https://github.com/alibaba/DeepRec

3、cd 到 deeprec/,编译源代码

# 切换到最新的稳定分支
git checkout deeprec2208
# 这一路选 no
./configure
# 等待编译,时间好久
bazel build -c opt --config=opt //tensorflow/tools/pip_package:build_pip_package

4、安装 DeepRec

./bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg
pip3 install /tmp/tensorflow_pkg/tensorflow-1.15.5+deeprec2208-cp36-cp36m-linux_x86_64.whl

使用 pip list 命令查看是否安装成功。

tensorboard            1.15.0
tensorflow             1.15.5+deeprec2208
tensorflow-estimator   1.15.2

5、cd 到 deeprec/modelzoo/wide_and_deep/data 目录,下载训练集和验证集文件。

wget https://storage.googleapis.com/dataset-uploader/criteo-kaggle/large_version/train.csv
wget https://storage.googleapis.com/dataset-uploader/criteo-kaggle/large_version/eval.csv

6、cd 到 deeprec/modelzoo/wide_and_deep 目录,执行以下命令运行模型。

python train.py

执行结果如下:

Evaluation complate:[3907/3907]
ACC = 0.7688134908676147
AUC = 0.7457772493362427

转自:https://zhuanlan.zhihu.com/p/581694395?utm_id=0

 

如果编译报错增加 --local_resources 2048,.5,1.0

bazel build -c opt --config=opt //tensorflow/tools/pip_package:build_pip_package --local_resources 2048,.5,1.0

posted @ 2024-01-29 14:39  WSX_1994  阅读(68)  评论(0)    收藏  举报