09 2022 档案

BMTrain使用介绍等-清华大模型课程
摘要:68 使用介绍 69 背景介绍 70 知识蒸馏 阅读全文

posted @ 2022-09-20 22:28 nlp如此迷人 阅读(214) 评论(0) 推荐(0)

Cross结构 【转载】
摘要:cross结构其实一直在用,但是不会说。 所以找相关的描述链接。 来源:21个经典深度学习句间关系模型|代码&技巧 - 忆臻的文章 - 知乎 https://zhuanlan.zhihu.com/p/358260721 双塔式模型也称孪生网络、Representation-based,就是用一个编码 阅读全文

posted @ 2022-09-16 21:03 nlp如此迷人 阅读(116) 评论(0) 推荐(0)

大模型高效、加速的运算 清华大模型课程
摘要:59 BMTrain工具包 先了解显存都去了哪里 1.模型的所有参数 2.模型的梯度 参数两和模型参数量是一个数量级的 3.中间的计算结果。4.优化器 60 接下来看一下多个GPU之间的合作模式 数据并行 具体来说是参数被复制到每张显卡上,数据切成三份,各自前向传播 反向传播,然后梯度聚合。 实际上 阅读全文

posted @ 2022-09-16 15:28 nlp如此迷人 阅读(343) 评论(0) 推荐(0)

OpenDelta工具包
摘要:Delta tuning的工具包 如果后续有此部分工作可以看 阅读全文

posted @ 2022-09-16 10:25 nlp如此迷人 阅读(96) 评论(0) 推荐(0)

OpenPrompt工具包使用
摘要:对工具包的介绍 有个疑问比如说positive这个类有好几个单词,那训练的时候到底看哪个? 现有模板的一些总结 目前的研究的组合方式 阅读全文

posted @ 2022-09-16 10:12 nlp如此迷人 阅读(403) 评论(0) 推荐(0)

Delta Tuning 清华大模型课程
摘要:微调一小部分参数 、 首先要明确为什么这种参数高效的微调是work的? 在过去是不可能实现的。过去神经网络初始化都是随机的。有了预训练,有了通用只是,更多是对特定领域任务的一个激发。 Delta Tuning包含三种方式 1.addition-based增量式的。本来模型中不存在的参数 额外加进来 阅读全文

posted @ 2022-09-16 09:48 nlp如此迷人 阅读(485) 评论(0) 推荐(0)

刘知远团队 大模型公开课
摘要:课程来源:https://www.bilibili.com/video/BV1UG411p7zv?p=2&vd_source=7a1bf40d519bd5238c79a30456432f0d 22 注意力机制-原理介绍 attention的本质是对value向量的加权平均。 25 Transform 阅读全文

posted @ 2022-09-14 20:30 nlp如此迷人 阅读(275) 评论(0) 推荐(0)

导航