摘要: 随着接触到的模型越来越大,自然就会接触到这种技术。 记录下自己的踩坑过程,当看到多机多卡跑通后,那种苦尽甘来的感觉还是挺舒服的。 我们首先来说一下单机多卡 huggingface上面有大佬上传了中文的BigBird的权重,想尝试能够处理的序列最长长度为4096的模型,但是放到单张卡里面batch_s 阅读全文
posted @ 2022-05-18 17:56 Hisi 阅读(2742) 评论(0) 推荐(0)