mmBERT：307M参数覆盖1800+语言，3万亿tokens训练

mmBERT是一个纯编码器架构的语言模型，在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT，但又加入了不少创新点，比如逆掩码比率调度和逆温度采样。而且研究团队还把1700多种低资源语言放在了衰减阶段加入训练，这个策略带来了相当不错的效果提升，充分利用了那些数据量本身就不大的语言资源。