[LLM] GPT，GPT-2，GPT-3 to InstructGPT

GPT，GPT-2，GPT-3 论文精读【论文精读】

GPT1: Improving Language Understanding by Generative Pre-Training

GPT2: language_models_are_unsupervised_multitask_learners

GPT3: language-models-are-few-shot-learners-Paper

（2021 Feb 发布的CLIP）

针对GPT-1的问题，GPT-2作了如下改进：去掉了fine-tuning层；并尝试 Zero-shot Learning（更大的数据集）。

以下是GPT初代，只有Decoder + Fine-tuning。

GPT3，引入新范式 prompt，有了“交互”的设计。（怎么感觉有了多模态的感觉）

ChatGPT狂飙原理剖析：GPT系列详解！【ChatGPT】系列第01篇

Instruct Learning 与 Prompt learning 有什么区别？

一个是 理解能力，一个是补全能力。

前者的特点是什么？　　

强化学习 RLHF

通过强化学习微调神经网络？

ChatGPT狂飙：强化学习RLHF与PPO！【ChatGPT】系列第02篇

InstructGPT 论文精读【论文精读】

ChatGPT狂飙：InstructGPT解析！【ChatGPT】原理第03篇

有了以上的基础和背景知识，以下才好继续深入理解InstructGPT。

从 GPT3 到 SFT。

从 SFT 到 RM。

利用 RM 去评价，而非人工打分；然后更新模型 by PPO。

后来的开源模型也是Transformer's decoder + fine tuning的模式么？Yes!

开源多模态大模型哪家强？TOP12榜单来了，GitHub揽获2.2k+星

BLIP-2 貌似比较牛逼。

BLIP(Bootstrapping Language-Image Pretraining)是salesforce在2022年提出的多模态框架，是理解和生成的统一，引入了跨模态的编码器和解码器，实现了跨模态信息流动，在多项视觉和语言任务取得SOTA。

这应该是GPT4 与多模态分支相交后，再考虑。

HELM 全面语言模型评测【论文精读·50】

Meta 发布大语言模型 LLaMA，它的来源和能力与 GPT 对比有什么特点？

模型结构和训练方法（总体类似gpt-3、PaLM架构，那就都是decoder架构，作为AI系统工程师，这几个优化的工作倒是值得深入看看的）
the modifications we made to the transformer architecture（模型结构微调主要把近期一些改进工作融合进来，但是论文没有讲这些参数的影响，没有做类似的对比实验，感觉模型结构方面的工作都还比较粗糙，赶紧追着去搞更大数据集去提高模型上限，刷性能）

RMSNorm normalizing Pre-normalization， byGPT-3
SwiGLU activation， by PaLM
Rotary embedding， by GPTNeo

训练方法

AdamW
cosine learning rate schedule
weight decay of 0.1 and gradient clipping of 1.0

从AI系统角度看，感觉LLMM模型未来工作，都是data centric、model size centric、computation centric，基础预训练模型的模型结构和训练方法基本很少看到变化，这对AI系统研发可能是好事，稳定的模型训练方法和模型结构，稳定的计算pattern会形成更好的AI系统和AI算法的设计边界，AI系统可以更好的在infra底层进行创新，比如编译器，可以泛化到graph level的编译器，甚至分布式graph的编译器。分析到最后，LLaMA其实是一个LLM模型实践，跟single GPU计算这个营销点并没有强关系，open-model和data centric LLM调优实践才是重点。

posted @ 2023-06-16 08:49 郝壹贰叁阅读(133) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[LLM] GPT，GPT-2，GPT-3 to InstructGPT

公告