Transformer(自然语言处理)笔记

Transerformer架构(自然语言处理)

尝试学习和从零构建一个大语言模型

download

就目前我的认知
Transformer架构主要分为编码器、解码器、词表、训练集、训练算法(T5)

编码器(Encoder)

Encoder主要负责将输入转换为计算机能够理解的内容(也就是词表中的向量词元)

解码器(Decoder)

将词元的向量内容还原回人类可以理解的内容

词表(Tokenizer)

模型所使用的词汇是基于词表中有的词元所生成的,词表可以由大量的文本内容训练,并且训练模式需要符合标准BPE格式

训练集(Training set)

大量的现实网络中人们的对话、沟通数据,需要确保数据是干净的

训练算法(T5)

通过梯度下降等方法降低模型的损失(令模型回复的内容越来越接近训练集的内容)

剩下的我还不太清楚,再研究研究

posted @ 2025-03-17 22:26  TokE648  阅读(58)  评论(0)    收藏  举报