上一页 1 2 3 4 5 6 7 ··· 47 下一页
摘要: 原文: https://zhuanlan.zhihu.com/p/144697348 阅读全文
posted @ 2023-12-16 16:24 marsggbo 阅读(23) 评论(0) 推荐(0)
摘要: 论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction 现有的 MoE 方法在正式使用场景中存在的挑战: 场景局限: 阅读全文
posted @ 2023-12-07 17:32 marsggbo 阅读(4562) 评论(0) 推荐(0)
摘要: 这个报错原因很好解决,只需要在引入包的时候调用下面的语句就可以了 import torch.fx 阅读全文
posted @ 2023-12-02 18:23 marsggbo 阅读(866) 评论(0) 推荐(0)
摘要: 闲言碎语 我在刚开始接触 huggingface (后简称 hf) 的 transformers 库时候感觉很冗杂,比如就模型而言,有 PretrainedModel, AutoModel,还有各种 ModelForClassification, ModelForCausalLM, AutoMode 阅读全文
posted @ 2023-12-02 12:52 marsggbo 阅读(3835) 评论(0) 推荐(0)
摘要: 以下笔记参考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。 1. Normalization normalize 阅读全文
posted @ 2023-12-01 17:00 marsggbo 阅读(1315) 评论(0) 推荐(0)
摘要: 更详细的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md 下载Wikipedia压缩数据集(enwiki-latest-pages-articles.xml.bz2) 再使用 阅读全文
posted @ 2023-11-26 21:29 marsggbo 阅读(758) 评论(0) 推荐(0)
摘要: 下面这边文章讲的非常清晰,原文链接:https://blog.csdn.net/ljp1919/article/details/113616226 阅读全文
posted @ 2023-11-26 19:18 marsggbo 阅读(364) 评论(0) 推荐(0)
摘要: 复杂度分析 推理过程图示 Double QLORA示意图 阅读全文
posted @ 2023-10-08 11:52 marsggbo 阅读(273) 评论(0) 推荐(0)
摘要: 这篇文章写的太好了非常适合新手入门,原文链接是 https://subingwen.cn/cmake/CMake-primer/index.html ![image](https://img2023.cnblogs.com/blog/746820/202308/746820-202308261754 阅读全文
posted @ 2023-08-26 17:55 marsggbo 阅读(56) 评论(0) 推荐(0)
摘要: > 转载自:https://www.zybuluo.com/qidiandasheng/note/349994#:~:text=GDB%3A,C%2B%2B%E6%88%96%E8%80%85Python%E6%8F%92%E4%BB%B6%E3%80%82 Macbook M1/M2无法安装gdb 阅读全文
posted @ 2023-08-22 14:37 marsggbo 阅读(452) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 47 下一页