学习 - 人工智能- 大模型的演变和训练

大模型的演变和训练

大模型训练整体上分为三个阶段:

预训练、 SFT(监督微调)以及RLHF(基于人类反馈的强化学习)

image

一、预训练

预训练的过程类似从婴儿成长成中学生的阶段,在这个阶段我们会学习各种各样的知识,我们的语言习惯、知识体系等重要部分都会形成;对于大模型来讲,在这个阶段它会学习各种不同种类的语料,学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子,却没有学会怎样去领会人类的意图,假设我们像预训练的模型提问:”艾佛尔铁塔在哪个国家?“,模型可能不会回答”法国“,而是根据它看到过的语料去进行输出:“东方明珠在哪个城市?”这显然不是一个好的答案,这能达到一种“填空”或者“成语接龙”的作用,因此我们需要让它能够去遵循人类的指示进行回答,这个就是阶段二SFT(监督微调)

二、监督微调(SFT)

SFT的过程类似于从中学成长成大学生的阶段,在这个阶段我们会学习到专业知识,比如金融、法律等领域,我们的头脑会更加专注于特定的领域。对于大模型来说,在这个阶段它可以学习各种人类的对话语料,甚至非常专业的垂直领域知识,在监督微调之后(Base Model -> SFT Model),它可以按照人类的意图去回答专业领域的问题。这时候我们再向模型提问“艾佛尔铁塔在哪个国家?”,模型大概率会回答“法国”。而不是去补全后面的句子。这个时候模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答很可能并不符合人类的偏好,他可能会输出一些涉政、涉暴或者种族歧视等言论,这时候我们就需要对模型进行阶段三RLHF(基于人类反馈的强化学习)。

三、RLHF

RLHF的过程就类似于从大学生步入到职场阶段,在这个过程中我们会开始工作,但是我们的工作可能会受到领导和客户的表扬或者批评,我们会根据反馈来调整自己的工作方法,争取在职场中获得到更多的正面反馈。对于大模型来说,在这个阶段它会针对同一问题进行多次回答,人类会对这些回答打分,大模型会在此阶段学习到如何输出分数最高的回答,使得回答更符合人类的偏好。

posted @ 2025-01-16 13:22  skystrivegao  阅读(202)  评论(0)    收藏  举报