Large Language Models: A Survey【大型语言模型：调查】

论文原文：https://arxiv.org/pdf/2402.06196.pdf

摘要

摘要-自 2022 年 11 月 ChatGPT 发布以来，大型语言模型（LLM）因其在各种自然语言任务中的出色表现而备受关注。LLMs 的通用语言理解和生成能力是通过在海量文本数据上训练数十亿个模型参数而获得的，正如缩放定律所预测的那样[1], [2]。LLMs 研究领域虽然刚刚起步，但正在以多种不同的方式迅速发展。在本文中，我们回顾了一些最著名的 LLM，包括三个流行的 LLM 系列（GPT、LLaMA、PaLM），并讨论了它们的特点、贡献和局限性。我们还概述了为构建和增强 LLM 而开发的技术。然后，我们调查了为 LLM 训练、微调和评估准备的流行数据集，回顾了广泛使用的 LLM 评估指标，并比较了几种流行的 LLM 在一组代表性基准上的性能。最后，我们讨论了尚未解决的挑战和未来的研究方向，以此结束本文。

引言

大语言模型的能力

大语言模型

论文结构

流行语言模型高级概览

流行语言模型高级概览1
流行语言模型高级概览2

受欢迎的LLM家庭

llms 是如何构建的

主流架构

图 24：（迄今为止）一些最具代表性的 LLM 框架的时间轴。除了使用我们的 #参数阈值的大型语言模型外，我们还包括一些具有代表性的作品，它们挑战了语言模型的极限，并为其成功铺平了道路（如 vanilla Transformer、BERT、GPT-1），以及一些小型语言模型。♣ 显示不仅作为模型而且作为方法的实体。只显示方法