看一遍就懂-大模型架构及encoder-decoder详细训练和推理计算过程
摘要:
看一遍就懂-大模型架构及encoder-decoder详细训练和推理计算过程 一、特殊Token的意思 不同模型架构的特殊token体系 BERT(Encoder-only,用于理解任务): <CLS>:放在句首,用于分类任务,其输出向量代表整句语义 <SEP>:分隔符,用于句对任务(如问答、文本蕴 阅读全文
posted @ 2026-01-25 18:21 GlenTt 阅读(201) 评论(0) 推荐(0)
浙公网安备 33010602011771号