摘要: NeoBERT代表了双向编码器模型的新一代技术发展,通过整合前沿架构改进、现代大规模数据集和优化的预训练策略,有效缩小了传统编码器与高性能自回归语言模型之间的性能差距。该模型在支持4096 tokens的扩展上下文窗口的同时,仅维持250M参数规模的紧凑设计。值得注意的是,尽管参数量较小,NeoBE 阅读全文
posted @ 2025-03-08 10:01 deephub 阅读(35) 评论(0) 推荐(0)