2022 年 9月随笔档案 - nlp如此迷人

BMTrain使用介绍等-清华大模型课程

摘要：68 使用介绍 69 背景介绍 70 知识蒸馏阅读全文

posted @ 2022-09-20 22:28 nlp如此迷人阅读(214) 评论(0) 推荐(0)

Cross结构【转载】

摘要：cross结构其实一直在用，但是不会说。所以找相关的描述链接。来源：21个经典深度学习句间关系模型｜代码&技巧 - 忆臻的文章 - 知乎 https://zhuanlan.zhihu.com/p/358260721 双塔式模型也称孪生网络、Representation-based，就是用一个编码阅读全文

posted @ 2022-09-16 21:03 nlp如此迷人阅读(116) 评论(0) 推荐(0)

大模型高效、加速的运算清华大模型课程

摘要：59 BMTrain工具包先了解显存都去了哪里 1.模型的所有参数 2.模型的梯度参数两和模型参数量是一个数量级的 3.中间的计算结果。4.优化器 60 接下来看一下多个GPU之间的合作模式数据并行具体来说是参数被复制到每张显卡上，数据切成三份，各自前向传播反向传播，然后梯度聚合。实际上阅读全文

posted @ 2022-09-16 15:28 nlp如此迷人阅读(343) 评论(0) 推荐(0)

OpenDelta工具包

摘要：Delta tuning的工具包如果后续有此部分工作可以看阅读全文

posted @ 2022-09-16 10:25 nlp如此迷人阅读(96) 评论(0) 推荐(0)

OpenPrompt工具包使用

摘要：对工具包的介绍有个疑问比如说positive这个类有好几个单词，那训练的时候到底看哪个？现有模板的一些总结目前的研究的组合方式阅读全文

posted @ 2022-09-16 10:12 nlp如此迷人阅读(403) 评论(0) 推荐(0)

Delta Tuning 清华大模型课程

摘要：微调一小部分参数、首先要明确为什么这种参数高效的微调是work的？在过去是不可能实现的。过去神经网络初始化都是随机的。有了预训练，有了通用只是，更多是对特定领域任务的一个激发。 Delta Tuning包含三种方式 1.addition-based增量式的。本来模型中不存在的参数额外加进来阅读全文

posted @ 2022-09-16 09:48 nlp如此迷人阅读(485) 评论(0) 推荐(0)

刘知远团队大模型公开课

摘要：课程来源：https://www.bilibili.com/video/BV1UG411p7zv?p=2&vd_source=7a1bf40d519bd5238c79a30456432f0d 22 注意力机制-原理介绍 attention的本质是对value向量的加权平均。 25 Transform 阅读全文

posted @ 2022-09-14 20:30 nlp如此迷人阅读(275) 评论(0) 推荐(0)

dongteng

09 2022 档案