摘要: top_k + top_p 的作用 🎯 场景设置 我们设某个语言模型在某个时间步要生成下一个 token,它预测的下一个 token 的概率分布如下: Token 概率 "Hello" 0.30 "Hi" 0.20 "Hey" 0.15 "Good" 0.10 "Yo" 0.08 "Greetin 阅读全文
posted @ 2025-07-15 11:39 zae 阅读(53) 评论(0) 推荐(0)