解耦自注意模型解决传统自注意模型退化问题

https://www.msra.cn/zh-cn/news/features/disentangled-self-attention-models

posted @ 2021-10-28 20:48  ZH奶酪  阅读(82)  评论(0编辑  收藏  举报