2025 年 4月 28 日随笔档案 - 第七子007

2025年4月28日

LLM大模型：TTRL: Test-Time Reinforcement Learning分析

摘要： 1、现在大模型在pre-train完成后，肯定还要做post-train，主要目的是学会chat，并且对齐人类的偏好，主要方式就是SFT和RL，详见：https://www.cnblogs.com/theseventhson/p/18760256；做LLM，有三大要素：算力、算法、token数据了！阅读全文

posted @ 2025-04-28 15:53 第七子007 阅读(539) 评论(0) 推荐(0)

第七子007

公告