CALM模型的黑盒采样:用碰撞方法实现温度调节
温度参数大概是LLM推理中最容易理解的控制手段了。把温度调低,输出就更确定、更收敛;调高,模型就更发散、更有"创意"。问题是这套机制依赖于显式的logits——而连续自回归语言模型(CALM)恰恰没有这东西。
我们在前面CALM框架的介绍中看到,CALM基本上把架构都做过修改,但是唯独温度采样这块一直没动。
这时因为模型预测的是无限维空间中的连续向量,根本没法枚举所有可能输出,更别提计算概率了。 或者说我们只有一个能吐样本的黑盒,没有logits可以缩放,没有softmax可以操作。
调整token生成分布是语言模型最常用的技术之一操作也足够简单直接。
生产环境里几乎所有LLM部署都离不开温度采样——它决定了输出在创造性和确定性之间的平衡点
传统做法是在softmax之前对logits做缩放,直接重塑词汇表上的概率分布。但CALM的输出空间是连续的、无限的,这条路是走不通,那怎么办?本文要解决的就是这个问题:只靠抽样能力,不碰任何概率数值,照样可以实现温度控制。
这里介绍的技术补全了CALM工具链的最后一块拼图,证明连续语言模型在可控性上并不逊于传统token模型,效率优势还能保住
https://avoid.overfit.cn/post/e2161ee3e44c4645b1e1f31666edd9b7

浙公网安备 33010602011771号