随笔档案「2025年11月3日」：十分钟读懂 Deepseek MTP（Multi-Token Pre... - 有何m不可

2025年11月3日

十分钟读懂 Deepseek MTP（Multi-Token Prediction）

摘要：传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP)，即在位置 t 上预测下一个 token (t+1)。而 Multi-Token Prediction (MTP) 的核心思想在于：不仅预测下一个 token，而是能够同时预测多个未来的 token。这种方式阅读全文

posted @ 2025-11-03 14:12 有何m不可阅读(319) 评论(0) 推荐(0)

gongzb

公告