mmBERT:307M参数覆盖1800+语言,3万亿tokens训练
mmBERT是一个纯编码器架构的语言模型,在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT,但又加入了不少创新点,比如逆掩码比率调度和逆温度采样。而且研究团队还把1700多种低资源语言放在了衰减阶段加入训练,这个策略带来了相当不错的效果提升,充分利用了那些数据量本身就不大的语言资源。
https://avoid.overfit.cn/post/a951525907cd4461aff511858297416e

浙公网安备 33010602011771号