大模型理论基础打卡02

第二章:大模型的能力

  • 从语言模型适应任务模型
  • 什么是任务?
  • 如何适应(adaptation)?
  • GPT-3的定量性能结果如何?

完整的GPT-3模型(davinci)有1750亿个参数。

Language model

  1. 困惑度(Perplexity)是自然语言处理和语言模型中的一个重要指标,用于衡量语言模型的性能。可解释为模型在预测下一个词时的平均不确定性。优秀的语言模型应能准确预测测试数据中的词序列,因此它的困惑度应较低。相反,如果语言模型经常做出错误的预测,那么它的困惑度将较高。一个序列的联合概率取决于其长度,并且随着长度的增长,其值趋近于零,这使得困惑度变得难以追踪。
  2. 几何平均(困惑度实现的就是几何平均),在几何平均中,每个词标记的概率都被同等看待,并且一个极低的概率(如0)将会导致整个几何平均大幅度下降。
  3. 困惑度反映了模型预测下一个词时,考虑的平均可能性数。如果困惑度为8,那么对于序列中的每个词,模型会考虑8个可能的词。这个例子类似于我们的语言模型:在给定特定词或标记后,模型需要从多个可能的选项中预测下一个词或标记。如果选择的可能性多,模型的预测任务就更为复杂,相应的困惑度就会更高。
  4. 语言模型可能会犯两种类型的错误:
    • 召回错误:语言模型为某个词符分配了较低的概率值(比如说 0),困惑度将趋近于无穷大。
    • 精确度错误:语言模型为某些错误的词序列过度分配了概率值。

语言模型的相关任务

  1. Penn Tree Bank任务:为了进行句法解析而标注的。
  2. LAMBADA任务:预测句子的最后一个词。 动机:解决这个任务需要对较长的内容进行建模,并对较长的内容具有一定的依赖。
  3. HellaSwag任务:评估模型进行常识推理的能力 任务:从一系列选择中选出最适合完成句子的选项。
  4. 序列生成任务:根据提示"问题",生成答案,Question answering,TriviaQA, WebQuestions,naturalQuestion。
  5. Translation任务:将源语言(例如,德语)中的句子翻译成目标语言(例如,英语)中的句子。
  6. Arithmetic任务:做算术题。
  7. 新闻生成任务:给定标题和副标题,生成新闻文章。
  8. Novel tasks 任务:给定一个新造的词和定义,生成使用该词的句子。

完!!!

posted @ 2024-01-17 21:42  wuhaoliu  阅读(37)  评论(0)    收藏  举报  来源