torch版本应该跟cuda、cudacnn的版本一致
今天执行脚本:
from transformers import HfArgumentParser
莫名奇妙就报了:
ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory
实际上是对整个llm架构不了解:
即使transformers的版本对上了,那如果torch和cuda的版本没对上,还是不行。
莫名奇妙就报了:
ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory
实际上是对整个llm架构不了解:
+-----------------------------+
| transformers | ← 你直接调用的库
| (BertModel, GPT2Tokenizer) |
+-----------------------------+
↓
+-----------------------------+
| torch | ← 实际执行计算的引擎
| (Tensor, nn.Module, Adam) |
+-----------------------------+
↓
+-----------------------------+
| CUDA / cuDNN / CPU / MPS | ← 硬件加速(GPU/Metal等)
+-----------------------------+j
所以把已经成功的环境保存一下,以便查阅:
torch 2.3.1+cu118 torchaudio 2.3.1+cu118 torchvision 0.18.1+cu118 transformers 4.44.2 cuda 11.8 /data/cuda/cuda-11.8/cuda cudnn v8.8.1.3+cuda-11.8 /data/cuda/cuda-11.8/cudnn/v8.8.1.3 nccl v2.15.1+cuda-11.8 /data/cuda/cuda-11.8/nccl/v2.15.1 tensorrt v8.6.0.12+cuda-11.8 /data/cuda/cuda-11.8/tensorrt/v8.6.0.12
大模型推荐在conda中安装torch cuda的命令很有帮助,很智能:
conda install -c nvidia cuda-toolkit=12.1 cudnn conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

浙公网安备 33010602011771号