GPT3大型语言模型的能力

大模型的能力

原文:arxiv.org/pdf/2005.14165.pdf

wiki: 第二章:大模型的能力 · datawhalechina/so-large-lm Wiki (github.com)

GPT3论文阅读review

(EE290里学到的读论文的方法)
Language Models are Few-Shot Learners

1.motivations

评估GPT3在NLP任务上的表现、能力(以及需要怎样的输入)→泛化能力好!有些任务表现非常好,有些则一般。

2.proposed solution

对语言模型研究的基础任务:句法解析、预测最后一个词、常识推理、问答(分为问题长短以及生成回答长短)、翻译、算术、生成新闻标题、Novel task。最后一个任务包含生成新词和纠正语法错误,的确不知道应该如何翻译Novel,也许是新奇的或者新颖的。部分任务GPT3采用one-shot和zero-shot对比,并和该领域中表现最好的模型对比评估效果。这里选用了多种任务,比较全面的展现了模型在重要任务上的能力。

3.evaluation

Perplexity
Accuracy
Training Petaflop/s-days
Validation Loss
BLEU
SuperGLUE Score
评价指标如何确定?领域里比较经典的评价指标毫无疑问很重要,另外则是能体现模型优势的评价指标。

4.analysis of the identified problem, idea, evaluation

翻译任务中GPT3没有进行监督学习却表现出更好的性能。此外对多个生成的回答的评价标准有三个,很有意思,有未归一化、长度归一化和频率归一化概率。我想,会出现这些细分概率一定有它真实的应用价值,或者说启发式方法自有其局限性。比如正文里说的对短问题、长度相同的回答和常见回答的处理缺陷。这可能就是工程折衷的表现,有其困难之处也有其魅力——平衡的艺术。

5.future directions

(1)从人身上习得目标功能,并在更新权重时加上强化学习,或添加额外的模态以获得对世界的更好建模。
从语言模型变成多模态模型,的确是现在的发展方向。
(2)构建GPT3规模的模型或零样本、少样本提示的双向模型
(3)提高预训练采样效率
他们是如何提出未来方向的呢?依据是什么,值得思考。

6.questions left with

(1)在文本合成和其他NLP任务上有显著的弱势。
(2)各种结构和算法上的局限
(3)陷入预训练目标的极限
(4)在预训练期间极差的采样效率

总结

比较有意义的是研究者对GPT3能力评估的范式:定义任务及其意义,把任务简化为语言模型的输入输出,最后评估GPT3在完成任务上的性能,并和该任务最优秀的模型相对比。这种研究思路很值得借鉴,即研究能产生实际价值的任务,当然这离不开前期大量调研、可行性分析和最后包含对比的结果评估。看论文能初步窥见研究的通用方法——控制变量,对多种因素进行测试、评估效果、得出结论(虽然这种科学素养从中学就学过,但我似乎还没有机会将其付诸实践,可能因为我还没真正开始做研究吧)。然而科研或许离不开扎实领域基础知识、奇思妙想、运气和出色的分析问题的能力,比起胡乱尝试,有章法的尝试更重要一些,这就离不开个人在基础知识上的思考以及优秀老师的指导。

GPT3论文摘要

Fine-Tuning (FT)

updating the weights of a pre-trained model by training on a supervised dataset specific to the desired task.

Few-Shot (FS)

the setting where the model is given a few demonstrations of the task at inference time as conditioning , but no weight updates are allowed.

One-Shot (1S)

the same as few-shot except that only one demonstration is allowed.

Zero-Shot (0S)

the same as one-shot except that no demonstrations are allowed, and the model is only given a natural language instruction describing the task.

future directions

(1)learning the objective function from humans , fine-tuning with reinforcement learning, or adding additional modalities such as images to provide grounding and a better model of the world
(2)Making a bidirectional model at the scale of GPT-3, and/or trying to make bidirectional models work with few- or zero-shot learning
(3)Improving pre-training sample efficiency
(4)organizing diverse demonstrations during pre-trainingand identifying them at test time

questions left with

(1)notable weaknesses in text synthesis and several NLP tasks
(2)several structural and algorithmic limitations
(3)run into (or could already be running into) the limits of the pretraining objective
(4)poor sample efficiency during pre-training

如何读论文

抓问题的本质

从点到系统

关注信息来源

一针见血

另外,关注:相关工作、解决方法、改进方向

posted @ 2024-01-16 19:03  asandstar  阅读(24)  评论(1编辑  收藏  举报