Deepspeed遇到的问题

问题一:

使用deepspeed的时候报错"ImportError: /root/.cache/torch_extensions/py310_cu118/fused_adam/fused_adam.so: cannot open shared object file: No such file or directory,使用网上的各种方法不成功,最终重新新建了conda环境,解决。
至今找不到具体原因

问题二:

安装deepspeed时候报错找不到nvcc,原因是deepspeed不能使用torch自带的nvcc,需要重新安装,并在配置文件中指定路径:
注意:以下操作都要在conda环境下进行
1.conda install nvidia/label/cuda-11.8.0::cuda-nvcc安装和torch自带cuda适配的cuda-toolkit
!!! 使用命令conda install -c nvidia cuda-toolkit=11.8不行,我想安装11.8版本的,但是最后装出来是12.4,不知为何。
2.使用命令nvcc --version查看cuda版本,该命令显示最优先使用的cuda。正常情况下在conda环境中会优先使用conda安装的,若有异常要更改,可看下一步
3.使用命令which nvcc查看nvcc所在路径,使用vim在 ~/.bashrc 文件中配置CUDA_HOME路径为nvcc所在路径 bin 文件夹的上一级
4. 安装conda install cudatoolkit=11.8,这个和cuda-toolkit=11.8不一样

posted @ 2025-10-19 13:29  IAMM!  阅读(3)  评论(0)    收藏  举报