大模型理论基础打卡02
第二章:大模型的能力
- 从语言模型适应任务模型
- 什么是任务?
- 如何适应(adaptation)?
- GPT-3的定量性能结果如何?
完整的GPT-3模型(davinci)有1750亿个参数。
Language model
- 困惑度(Perplexity)是自然语言处理和语言模型中的一个重要指标,用于衡量语言模型的性能。可解释为模型在预测下一个词时的平均不确定性。优秀的语言模型应能准确预测测试数据中的词序列,因此它的困惑度应较低。相反,如果语言模型经常做出错误的预测,那么它的困惑度将较高。一个序列的联合概率取决于其长度,并且随着长度的增长,其值趋近于零,这使得困惑度变得难以追踪。
- 几何平均(困惑度实现的就是几何平均),在几何平均中,每个词标记的概率都被同等看待,并且一个极低的概率(如0)将会导致整个几何平均大幅度下降。
- 困惑度反映了模型预测下一个词时,考虑的平均可能性数。如果困惑度为8,那么对于序列中的每个词,模型会考虑8个可能的词。这个例子类似于我们的语言模型:在给定特定词或标记后,模型需要从多个可能的选项中预测下一个词或标记。如果选择的可能性多,模型的预测任务就更为复杂,相应的困惑度就会更高。
- 语言模型可能会犯两种类型的错误:
- 召回错误:语言模型为某个词符分配了较低的概率值(比如说 0),困惑度将趋近于无穷大。
- 精确度错误:语言模型为某些错误的词序列过度分配了概率值。
语言模型的相关任务
- Penn Tree Bank任务:为了进行句法解析而标注的。
- LAMBADA任务:预测句子的最后一个词。 动机:解决这个任务需要对较长的内容进行建模,并对较长的内容具有一定的依赖。
- HellaSwag任务:评估模型进行常识推理的能力 任务:从一系列选择中选出最适合完成句子的选项。
- 序列生成任务:根据提示"问题",生成答案,Question answering,TriviaQA, WebQuestions,naturalQuestion。
- Translation任务:将源语言(例如,德语)中的句子翻译成目标语言(例如,英语)中的句子。
- Arithmetic任务:做算术题。
- 新闻生成任务:给定标题和副标题,生成新闻文章。
- Novel tasks 任务:给定一个新造的词和定义,生成使用该词的句子。

浙公网安备 33010602011771号