摘要: 问题一: 使用deepspeed的时候报错"ImportError: /root/.cache/torch_extensions/py310_cu118/fused_adam/fused_adam.so: cannot open shared object file: No such file or 阅读全文
posted @ 2025-10-19 13:29 IAMM! 阅读(3) 评论(0) 推荐(0)
摘要: 一、单机多卡训练 方法一:把AutoModelForCausalLM.from_pretrained的参数device_map改为"auto",可自动把模型和数据分配到多个GPU上 方法二:也可以使用 Accelerate​,其是一个分布式训练工具包,提供底层的分布式训练基础。它更倾向于与##手动训 阅读全文
posted @ 2025-08-27 17:38 IAMM! 阅读(24) 评论(0) 推荐(0)
摘要: 1.插入模式 a:在当前光标下一位开始编辑 A:在当前光标所在行行尾开始编辑 i:在当前光标开始编辑 I:在当前光标所在行行首开始编辑 o:在当前光标的下一行开始编辑 O:在当前光标的上一行开始编辑 2.底行模式 底行模式下可以做一些保存,字符替换等操作,底行模式下命令以回车结束,退出或者返回命令模 阅读全文
posted @ 2025-03-26 16:54 IAMM! 阅读(49) 评论(0) 推荐(0)
摘要: rsync两种模式:ssh和daemon 1.ssh 不需要配置文件,直接使用ssh连接 (但是连接时候 显示拒绝,未解决...) 2.daemon 需要配置文件 参考https://www.psvmc.cn/article/2022-11-21-rsync-config.html 阅读全文
posted @ 2025-03-26 15:37 IAMM! 阅读(19) 评论(0) 推荐(0)
摘要: 首先注意!!:TensorFlow2.11开始就不支持Windows的GPU,若要在Windows下安装GPU版本的,只能安装2.10及以下的版本,可在官网中文版页面找到安装步骤。 下面是官网提示直接安装,直接安装的话是最新版本的: 若要安装指定版本,使用命令:pip install tensorf 阅读全文
posted @ 2025-01-21 12:38 IAMM! 阅读(84) 评论(0) 推荐(0)
摘要: 生成私钥并免密登录,知乎:https://zhuanlan.zhihu.com/p/222452460 查看占用显卡的程序:ps -f -p 进程号 杀死进程:kill -9 进程号 阅读全文
posted @ 2025-01-20 15:02 IAMM! 阅读(7) 评论(0) 推荐(0)
摘要: 1. 删除环境xxx以及其中的包:conda remove -n xxx --all 2. 列出所有的环境:conda env list 3. linux环境下进入conda环境:首先进入bin目录,比如"/home/user/local/anaconda3/bin",然后source activa 阅读全文
posted @ 2024-12-04 16:48 IAMM! 阅读(195) 评论(0) 推荐(0)
摘要: 在安装pytorch或TensorFlow等包时,需要和cuda版本匹配,此时需要查看系统的cuda版本: 在终端输入命令nvidia-sim CUDA Version指的是系统支持的最大CUDA版本,此时我们只需要选择低于该版本的CUDA进行安装即可,如何安装CUDA以及TensorFlow可看h 阅读全文
posted @ 2024-11-29 13:44 IAMM! 阅读(153) 评论(0) 推荐(0)
摘要: 方法一 适用于已经clone到本地的项目 执行: git submodule init git submodule update 方法二 在执行 git clone 时加上 --recursive 参数 执行:git clone --recursive https://github.com/exam 阅读全文
posted @ 2024-11-28 18:42 IAMM! 阅读(65) 评论(0) 推荐(0)