摘要: 投机推理的核心思想是所谓的“草稿-验证”范式:快速生成多个草稿token,然后利用大语言模型的并行计算性一次验证所有草稿token,并决定接受多少token。例如,我们利用一个只有1B的小模型快速生成了8个草稿token drafts = slm.generate(inp, max_new_toke 阅读全文
posted @ 2025-12-14 19:46 zrq96 阅读(8) 评论(0) 推荐(0)