第二章：大模型的能力

完整的GPT-3模型（davinci）有1750亿个参数。

Language model

困惑度（Perplexity）是自然语言处理和语言模型中的一个重要指标，用于衡量语言模型的性能。可解释为模型在预测下一个词时的平均不确定性。优秀的语言模型应能准确预测测试数据中的词序列，因此它的困惑度应较低。相反，如果语言模型经常做出错误的预测，那么它的困惑度将较高。一个序列的联合概率取决于其长度，并且随着长度的增长，其值趋近于零，这使得困惑度变得难以追踪。
几何平均（困惑度实现的就是几何平均），在几何平均中，每个词标记的概率都被同等看待，并且一个极低的概率（如0）将会导致整个几何平均大幅度下降。
困惑度反映了模型预测下一个词时，考虑的平均可能性数。如果困惑度为8，那么对于序列中的每个词，模型会考虑8个可能的词。这个例子类似于我们的语言模型：在给定特定词或标记后，模型需要从多个可能的选项中预测下一个词或标记。如果选择的可能性多，模型的预测任务就更为复杂，相应的困惑度就会更高。
语言模型可能会犯两种类型的错误：
- 召回错误：语言模型为某个词符分配了较低的概率值（比如说 0），困惑度将趋近于无穷大。
- 精确度错误：语言模型为某些错误的词序列过度分配了概率值。