07 2022 档案

一文搞懂交叉熵损失
摘要:转载来源 https://www.cnblogs.com/wangguchangqing/p/12068084.html#autoid-0-2-0 阅读全文

posted @ 2022-07-29 11:05 nlp如此迷人 阅读(44) 评论(0) 推荐(0)

adaptive softmax
摘要:词表过大用到了adaptive softmax 但是不知其原理 引用来源https://mp.weixin.qq.com/s/OBkEsjNBJaYws8UQbZ9B0A 要想弄明白还是看原文Efficient softmax approximation for GPUs 论文中提到: 损失函数近似 阅读全文

posted @ 2022-07-25 11:44 nlp如此迷人 阅读(485) 评论(0) 推荐(0)

模型训练随机种子及其原理
摘要:实习中所跑实验一般都有随机种子 但是不知道原理是什么。 下边用来记录。 来源:https://wenku.baidu.com/view/eed3b921ecf9aef8941ea76e58fafab068dc445a.html https://blog.csdn.net/ytusdc/article 阅读全文

posted @ 2022-07-17 09:52 nlp如此迷人 阅读(477) 评论(0) 推荐(0)

用Bert的attention对角线mask 来代替 [mask]导致loss为0问题
摘要:自己实习的时候遇到这个问题,需要对用到mlm的任务方式,一开始采用了对attention矩阵进行对角线mask的方式,但是训练出现泄漏了,loss很快到了0. 内容来源:https://zhuanlan.zhihu.com/p/453420634 https://www.zhihu.com/ques 阅读全文

posted @ 2022-07-08 15:58 nlp如此迷人 阅读(860) 评论(0) 推荐(0)

seq2seq总结【转载以学习、回忆】
摘要:其实对seq2seq如何解码一直不明确。现在整理一下苏神博客里关于seq2seq的知识 。文章太多 只放一个网址吧https://spaces.ac.cn/archives/5861 尽管整个图的线条比较多,可能有点眼花,但其实结构很简单。左边是对输入的encoder,它负责把输入(可能是变长的)编 阅读全文

posted @ 2022-07-01 17:38 nlp如此迷人 阅读(190) 评论(0) 推荐(0)

导航