torch版本应该跟cuda、cudacnn的版本一致

今天执行脚本:
from transformers import HfArgumentParser
莫名奇妙就报了:
ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory

实际上是对整个llm架构不了解:
+-----------------------------+
|        transformers         |  ← 你直接调用的库
| (BertModel, GPT2Tokenizer)  |
+-----------------------------+
             ↓
+-----------------------------+
|           torch             |  ← 实际执行计算的引擎
| (Tensor, nn.Module, Adam)   |
+-----------------------------+
             ↓
+-----------------------------+
| CUDA / cuDNN / CPU / MPS    |  ← 硬件加速(GPU/Metal等)
+-----------------------------+j
即使transformers的版本对上了,那如果torch和cuda的版本没对上,还是不行。
所以把已经成功的环境保存一下,以便查阅:
torch                    2.3.1+cu118
torchaudio               2.3.1+cu118
torchvision              0.18.1+cu118
transformers             4.44.2
cuda            11.8                    /data/cuda/cuda-11.8/cuda  
cudnn           v8.8.1.3+cuda-11.8      /data/cuda/cuda-11.8/cudnn/v8.8.1.3   
nccl            v2.15.1+cuda-11.8       /data/cuda/cuda-11.8/nccl/v2.15.1      
tensorrt        v8.6.0.12+cuda-11.8     /data/cuda/cuda-11.8/tensorrt/v8.6.0.12 

大模型推荐在conda中安装torch cuda的命令很有帮助,很智能:

conda install -c nvidia cuda-toolkit=12.1 cudnn

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

  


 
posted @ 2025-09-10 17:05  长尾景虎  阅读(40)  评论(0)    收藏  举报