摘要: 预训练大模型如Bert,通过大规模语料库训练获得一般性常识,缺少领域知识。可以注入三元组作为领域知识。但过多的知识参入使句子偏离原本意思,被称为“知识噪音”(KN:knowledge noise)。通过引入 soft-position 和 visible matrix 限制知识的影响。K-Bert能 阅读全文
posted @ 2023-03-13 15:10 某某人8265 阅读(217) 评论(0) 推荐(0)