摘要: 困惑度公式: 困惑度的定义如上。 具体里面这个条件概率概率怎么计算呢? 假设我们的生成模型生成了一个 shape为(N,D)的序列。表示N个字,序列长度,序列中,每个token的概率分布维度为D,也就是字典中共有D个字。 由于我们是自回归模型,基于前k个字预测第K+1个字。所以这个N*D序列中的每一 阅读全文
posted @ 2024-10-16 10:02 continu~ 阅读(86) 评论(0) 推荐(0)