会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
点此进入CSDN
你的浏览器不支持播放哦!!nuttertools 您的浏览器不支持该播放!
高颜值的殺生丸
博主擅长python和c++,从事人工智能领域自然语言处理和图像识别方面的工作,欢迎大家来讨论交流
博客园
首页
联系
管理
2024年4月18日
deepspeed 训练多机多卡报错 ncclSystemError Last error
摘要: 最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed
阅读全文
posted @ 2024-04-18 21:34 高颜值的殺生丸
阅读(4853)
评论(0)
推荐(0)
作者信息
昵称:
刘新宇
园龄:4年6个月
粉丝:1209
QQ:522414928