随笔档案「2022年7月」 - nlp如此迷人

一文搞懂交叉熵损失

摘要：转载来源 https://www.cnblogs.com/wangguchangqing/p/12068084.html#autoid-0-2-0 阅读全文

posted @ 2022-07-29 11:05 nlp如此迷人阅读(44) 评论(0) 推荐(0)

adaptive softmax

摘要：词表过大用到了adaptive softmax 但是不知其原理引用来源https://mp.weixin.qq.com/s/OBkEsjNBJaYws8UQbZ9B0A 要想弄明白还是看原文Efficient softmax approximation for GPUs 论文中提到：损失函数近似阅读全文

posted @ 2022-07-25 11:44 nlp如此迷人阅读(485) 评论(0) 推荐(0)

模型训练随机种子及其原理

摘要：实习中所跑实验一般都有随机种子但是不知道原理是什么。下边用来记录。来源：https://wenku.baidu.com/view/eed3b921ecf9aef8941ea76e58fafab068dc445a.html https://blog.csdn.net/ytusdc/article 阅读全文

posted @ 2022-07-17 09:52 nlp如此迷人阅读(477) 评论(0) 推荐(0)

用Bert的attention对角线mask 来代替 [mask]导致loss为0问题

摘要：自己实习的时候遇到这个问题，需要对用到mlm的任务方式，一开始采用了对attention矩阵进行对角线mask的方式，但是训练出现泄漏了，loss很快到了0. 内容来源：https://zhuanlan.zhihu.com/p/453420634 https://www.zhihu.com/ques 阅读全文

posted @ 2022-07-08 15:58 nlp如此迷人阅读(860) 评论(0) 推荐(0)

seq2seq总结【转载以学习、回忆】

摘要：其实对seq2seq如何解码一直不明确。现在整理一下苏神博客里关于seq2seq的知识。文章太多只放一个网址吧https://spaces.ac.cn/archives/5861 尽管整个图的线条比较多，可能有点眼花，但其实结构很简单。左边是对输入的encoder，它负责把输入（可能是变长的）编阅读全文

posted @ 2022-07-01 17:38 nlp如此迷人阅读(190) 评论(0) 推荐(0)

dongteng

07 2022 档案

一文搞懂交叉熵损失

adaptive softmax

模型训练随机种子及其原理

用Bert的attention对角线mask 来代替 [mask]导致loss为0问题

seq2seq总结【转载以学习、回忆】

导航

公告