WePOINTS模型家族中POINTS-Reader模型部署在公司GPU服务器上所遇到的问题

1. POINTS-Reader 模型部署和下载
尝试在Linux上使用git直接克隆下载Tencent/POINTS-Reader,但遇到HuggingFace网络问题,git克隆大模型的方法行不通。
不要使用git clone方式下载模型,非常不靠谱。
使用专用多线程下载器hfd
工具同样支持设置镜像端点的环境变量,在Linux环境下用以下代码设置,这个代码是一次性的:
export HF_ENDPOINT="https://hf-mirror.com"
POINTS-Reader模型使用下载示例
hf download tencent/POINTS-Reader
使用--local-dir指定本地文件夹。
2. CUDA安装
为GPU服务器安装了两个版本的CUDA,一个是11.8版本,另一个是12.8版本,结果发现公司使用的是5090显卡,只能使用12.8版本。
不过学到了切换CUDA版本的方法,直接编辑.bashrc:

nano ~/.bashrc
# ----------------------------
# CUDA 版本设置
# ----------------------------
export CUDA_HOME=/usr/local/cuda-12.1
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

想切换,直接改路径就行。.bashrc是一个用户级的 Bash 配置文件,用来在 每次打开终端(shell)时自动执行命令和设置环境变量。
3. PyTorch安装
这个简单,官网找到CUDA对应版本直接下载,在对应conda虚拟环境中直接安装。
4. FlashAttention2安装
FlashAttention2 是一个针对 Transformer 模型中的自注意力(Self-Attention)计算加速的高性能 CUDA 库,POINTS-Reader使用了Transformer,所以必须要安装。
Linux 系统 whl 文件下载地址:
https://github.com/Dao-AILab/flash-attention/releases
根据系统、CUDA12.8版本和PyTorch下载了对应版本。
不幸的是对应版本的FlashAttention2安装过后依然报错。
根据报错得知公司使用的系统版本为CentOS Linux 8,FlashAttention2依赖的glibc版本为2.32,而笔者使用的GPU服务器glibc版本只有2.28,于是报错。
但 GLIBC 是操作系统的核心组件,随意升级可能导致系统不稳定甚至崩溃。
利用manylinux构建FlashAttention2的wheels,消除了对新版 GLIBC 的依赖,这位大佬将编译好的wheels发布出来了,链接为
https://github.com/zipzou/flash-attention/releases/tag/v2.8.3
下载manylinux版的FlashAttention2对应版本,再到GPU服务器中pip安装覆盖,成功解决问题。

posted @ 2026-01-23 12:02  asphyxiasea  阅读(1)  评论(0)    收藏  举报