摘要: 目前LLM的训练范式不外乎这么几步:pre-train、SFT、RL,每个步骤都有自己的作用,比如: pre-train:把训练预料的知识压缩到neural的结点 SFT:初步学会问答 RL:和人类的偏好对齐 经过上述三步骤后,LLM的效果会有很大提升,然鹅还是摆脱不了目前的一大困境:本质还是个st 阅读全文
posted @ 2025-06-30 14:52 第七子007 阅读(117) 评论(0) 推荐(0)