摘要: 1、现在大模型在pre-train完成后,肯定还要做post-train,主要目的是学会chat,并且对齐人类的偏好,主要方式就是SFT和RL,详见:https://www.cnblogs.com/theseventhson/p/18760256;做LLM,有三大要素:算力、算法、token数据了! 阅读全文
posted @ 2025-04-28 15:53 第七子007 阅读(473) 评论(0) 推荐(0)