2022年9月16日

Cross结构 【转载】

摘要: cross结构其实一直在用,但是不会说。 所以找相关的描述链接。 来源:21个经典深度学习句间关系模型|代码&技巧 - 忆臻的文章 - 知乎 https://zhuanlan.zhihu.com/p/358260721 双塔式模型也称孪生网络、Representation-based,就是用一个编码 阅读全文

posted @ 2022-09-16 21:03 nlp如此迷人 阅读(121) 评论(0) 推荐(0)

大模型高效、加速的运算 清华大模型课程

摘要: 59 BMTrain工具包 先了解显存都去了哪里 1.模型的所有参数 2.模型的梯度 参数两和模型参数量是一个数量级的 3.中间的计算结果。4.优化器 60 接下来看一下多个GPU之间的合作模式 数据并行 具体来说是参数被复制到每张显卡上,数据切成三份,各自前向传播 反向传播,然后梯度聚合。 实际上 阅读全文

posted @ 2022-09-16 15:28 nlp如此迷人 阅读(350) 评论(0) 推荐(0)

OpenDelta工具包

摘要: Delta tuning的工具包 如果后续有此部分工作可以看 阅读全文

posted @ 2022-09-16 10:25 nlp如此迷人 阅读(97) 评论(0) 推荐(0)

OpenPrompt工具包使用

摘要: 对工具包的介绍 有个疑问比如说positive这个类有好几个单词,那训练的时候到底看哪个? 现有模板的一些总结 目前的研究的组合方式 阅读全文

posted @ 2022-09-16 10:12 nlp如此迷人 阅读(406) 评论(0) 推荐(0)

Delta Tuning 清华大模型课程

摘要: 微调一小部分参数 、 首先要明确为什么这种参数高效的微调是work的? 在过去是不可能实现的。过去神经网络初始化都是随机的。有了预训练,有了通用只是,更多是对特定领域任务的一个激发。 Delta Tuning包含三种方式 1.addition-based增量式的。本来模型中不存在的参数 额外加进来 阅读全文

posted @ 2022-09-16 09:48 nlp如此迷人 阅读(495) 评论(0) 推荐(0)

导航