摘要:
来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Exploring the Benefit of Activation Sparsity in Pre-training 论文地址:https://arxiv.org/abs/2410.03440 论文代码:https://github.co 阅读全文
摘要:
本文是对公开论文的核心提炼,旨在进行学术交流。如有任何侵权问题,请及时联系号主以便删除。 来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Lang 阅读全文
摘要:
来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models 论文地址:https://arxiv.org/abs/2409.17481 论文代码:https:// 阅读全文
摘要:
来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: Target-Aware Language Modeling via Granular Data Sampling 论文地址:https://arxiv.org/abs/2409.14705 创新点 提出了一种将预先训练好的标记符与多粒度标记 阅读全文