Fork me on GitHub
摘要: 看到DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,该技术原始论文是由Meta 发在ICML 2024的一篇Poster。 论文: [2404.19737] Better & Faster Large Language Models via 阅读全文
posted @ 2025-01-17 09:35 stardsd 阅读(2519) 评论(0) 推荐(0)