2022年9月16日

Delta Tuning 清华大模型课程

摘要: 微调一小部分参数 、 首先要明确为什么这种参数高效的微调是work的? 在过去是不可能实现的。过去神经网络初始化都是随机的。有了预训练,有了通用只是,更多是对特定领域任务的一个激发。 Delta Tuning包含三种方式 1.addition-based增量式的。本来模型中不存在的参数 额外加进来 阅读全文

posted @ 2022-09-16 09:48 nlp如此迷人 阅读(481) 评论(0) 推荐(0)

2022年9月14日

刘知远团队 大模型公开课

摘要: 课程来源:https://www.bilibili.com/video/BV1UG411p7zv?p=2&vd_source=7a1bf40d519bd5238c79a30456432f0d 22 注意力机制-原理介绍 attention的本质是对value向量的加权平均。 25 Transform 阅读全文

posted @ 2022-09-14 20:30 nlp如此迷人 阅读(269) 评论(0) 推荐(0)

2022年7月29日

一文搞懂交叉熵损失

摘要: 转载来源 https://www.cnblogs.com/wangguchangqing/p/12068084.html#autoid-0-2-0 阅读全文

posted @ 2022-07-29 11:05 nlp如此迷人 阅读(31) 评论(0) 推荐(0)

2022年7月25日

adaptive softmax

摘要: 词表过大用到了adaptive softmax 但是不知其原理 引用来源https://mp.weixin.qq.com/s/OBkEsjNBJaYws8UQbZ9B0A 要想弄明白还是看原文Efficient softmax approximation for GPUs 论文中提到: 损失函数近似 阅读全文

posted @ 2022-07-25 11:44 nlp如此迷人 阅读(429) 评论(0) 推荐(0)

2022年7月17日

模型训练随机种子及其原理

摘要: 实习中所跑实验一般都有随机种子 但是不知道原理是什么。 下边用来记录。 来源:https://wenku.baidu.com/view/eed3b921ecf9aef8941ea76e58fafab068dc445a.html https://blog.csdn.net/ytusdc/article 阅读全文

posted @ 2022-07-17 09:52 nlp如此迷人 阅读(458) 评论(0) 推荐(0)

2022年7月8日

用Bert的attention对角线mask 来代替 [mask]导致loss为0问题

摘要: 自己实习的时候遇到这个问题,需要对用到mlm的任务方式,一开始采用了对attention矩阵进行对角线mask的方式,但是训练出现泄漏了,loss很快到了0. 内容来源:https://zhuanlan.zhihu.com/p/453420634 https://www.zhihu.com/ques 阅读全文

posted @ 2022-07-08 15:58 nlp如此迷人 阅读(828) 评论(0) 推荐(0)

2022年7月1日

seq2seq总结【转载以学习、回忆】

摘要: 其实对seq2seq如何解码一直不明确。现在整理一下苏神博客里关于seq2seq的知识 。文章太多 只放一个网址吧https://spaces.ac.cn/archives/5861 尽管整个图的线条比较多,可能有点眼花,但其实结构很简单。左边是对输入的encoder,它负责把输入(可能是变长的)编 阅读全文

posted @ 2022-07-01 17:38 nlp如此迷人 阅读(180) 评论(0) 推荐(0)

2022年6月23日

关于模型冻结某层参数的问题

摘要: 可看这两个链接 https://www.zhihu.com/question/311095447/answer/589307812 bert冻结参数 https://blog.csdn.net/HUSTHY/article/details/104006106 阅读全文

posted @ 2022-06-23 16:15 nlp如此迷人 阅读(98) 评论(0) 推荐(0)

2022年6月18日

在huggingface(transformers)加载Bert遇到的attention_mask问题

摘要: 记录一个非常有意思的,看了源码才了解的Bert使用方法。 如何通过Bert实现类似left-to-right的语言模型呢? 一开始自己以为 只能如下使用。 自己以为关于attention_mask的输入只能是对每句话都产生一个二维的attention_mask. 但是自己需要实现left-to-ri 阅读全文

posted @ 2022-06-18 19:05 nlp如此迷人 阅读(879) 评论(0) 推荐(0)

2022年5月23日

关于CRF层的学习率【转载以学习、回忆】

摘要: 面试的时候 会有人问你针对BERT+CRF这种模型做出了什么调参? 这里其实可以答换用不同的BERT 比说哈工大版本的wwm这种整词遮蔽的BERT天然适合识别词级别的任务。 还可以答优化了CRF层的学习率参数,这里呢是以前看到苏神的帖子了解到的,不过又记不太清了,因此转载苏神的文章以学习、回忆。 来 阅读全文

posted @ 2022-05-23 15:41 nlp如此迷人 阅读(251) 评论(0) 推荐(0)

导航