[LLM] DeBERTa

DeBERTa

[case]

Google AI4Code – Understand Code in Python Notebooks

Predict the relationship between code and comments

RoBERTa, DeBERTa (v1, v2, v3)

RoBERTa 是 BERT 更为精细的调优版本。在模型规模、算力和数据上，与 BERT 相比主要有以下几点改进：

(1) 更大的模型参数量 (论文提供的训练时间来看，模型使用 1024 块 V100 GPU 训练了 1 天的时间)
(2) 更大 bacth size。RoBERTa 在训练过程中使用了更大的 bacth size。尝试过从 256 到 8000 不等的 bacth size
(3) 更多的训练数据（包括：CC-NEWS 等在内的 160GB 纯文本。而最初的 BERT 使用 16GB BookCorpus 数据集和英语维基百科进行训练）

另外，RoBERTa 在训练方法上有以下改进：

(1) 去掉下一句预测 (NSP) 任务
(2) 动态掩码。BERT 依赖随机掩码和预测 token。原版的 BERT 实现在数据预处理期间执行一次掩码，得到一个静态掩码。而 RoBERTa 使用了动态掩码：每次向模型输入一个序列时都会生成新的掩码模式。这样，在大量数据不断输入的过程中，模型会逐渐适应不同的掩码策略，学习不同的语言表征
(3) 文本编码。Byte-Pair Encoding (BPE) 是字符级和词级别表征的混合，支持处理自然语言语料库中的众多常见词汇。原版的 BERT 实现使用字符级别的 BPE 词汇，大小为 30K，是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式，而是考虑用更大的 byte 级别 BPE 词汇表来训练 BERT，这一词汇表包含 50K 的 subword 单元，且没有对输入作任何额外的预处理或分词

NLP比赛利器：DeBERTa系列模型介绍

DeBERTa（Decoding-enhanced BERT with disentangled attention）模型是微软在2021年提出的，到现在其实已经迭代了三个版本，第一版发布的时候在SuperGLUE[1]DeBERTa（Decoding-enhanced BERT with disentangled attention）模型是微软在2021年提出的，到现在其实已经迭代了三个版本，第一版发布的时候在SuperGLUE[1]排行榜上就已经获得了超越人类的水平。目前，一些比较有挑战的NLP任务，甚至是NLG任务都会用DeBERTa模型当成预训练模型，进一步微调。

posted @ 2023-07-04 10:00 郝壹贰叁阅读(411) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[LLM] DeBERTa

DeBERTa

RoBERTa, DeBERTa (v1, v2, v3)

NLP比赛利器：DeBERTa系列模型介绍

公告