WePOINTS模型家族中POINTS-Reader模型部署在公司GPU服务器上所遇到的问题

1. POINTS-Reader 模型部署和下载
尝试在Linux上使用git直接克隆下载Tencent/POINTS-Reader，但遇到HuggingFace网络问题，git克隆大模型的方法行不通。
不要使用git clone方式下载模型，非常不靠谱。
使用专用多线程下载器hfd
工具同样支持设置镜像端点的环境变量，在Linux环境下用以下代码设置，这个代码是一次性的:
export HF_ENDPOINT="https://hf-mirror.com"
POINTS-Reader模型使用下载示例
hf download tencent/POINTS-Reader
使用--local-dir指定本地文件夹。
2. CUDA安装
为GPU服务器安装了两个版本的CUDA，一个是11.8版本，另一个是12.8版本，结果发现公司使用的是5090显卡，只能使用12.8版本。
不过学到了切换CUDA版本的方法，直接编辑.bashrc：

nano ~/.bashrc
# ----------------------------
# CUDA 版本设置
# ----------------------------
export CUDA_HOME=/usr/local/cuda-12.1
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

想切换，直接改路径就行。.bashrc是一个用户级的 Bash 配置文件，用来在每次打开终端（shell）时自动执行命令和设置环境变量。
3. PyTorch安装
这个简单，官网找到CUDA对应版本直接下载，在对应conda虚拟环境中直接安装。
4. FlashAttention2安装
FlashAttention2 是一个针对 Transformer 模型中的自注意力（Self-Attention）计算加速的高性能 CUDA 库，POINTS-Reader使用了Transformer，所以必须要安装。
Linux 系统 whl 文件下载地址：
https://github.com/Dao-AILab/flash-attention/releases
根据系统、CUDA12.8版本和PyTorch下载了对应版本。
不幸的是对应版本的FlashAttention2安装过后依然报错。
根据报错得知公司使用的系统版本为CentOS Linux 8，FlashAttention2依赖的glibc版本为2.32，而笔者使用的GPU服务器glibc版本只有2.28，于是报错。
但 GLIBC 是操作系统的核心组件，随意升级可能导致系统不稳定甚至崩溃。
利用manylinux构建FlashAttention2的wheels，消除了对新版 GLIBC 的依赖，这位大佬将编译好的wheels发布出来了，链接为
https://github.com/zipzou/flash-attention/releases/tag/v2.8.3
下载manylinux版的FlashAttention2对应版本，再到GPU服务器中pip安装覆盖，成功解决问题。

posted @ 2026-01-23 12:02 asphyxiasea 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

WePOINTS模型家族中POINTS-Reader模型部署在公司GPU服务器上所遇到的问题

公告