摘要: 本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。) 阅读全文
posted @ 2025-04-22 22:40 Big-Yellow-J 阅读(708) 评论(0) 推荐(0)
levels of contents