摘要:        
本文主要介绍了在 **OpenRLHF**中模型框架设计,主要分为3类模型:1、`actor model`;2、`critic model`;3、`reward model`这三类模型中分别起到作用:1、直接更具prompt输出response;2、输出token的评分(`action_values = values[:, -3:]`);3、返回整句输出评分(找出最后一个有效 token 的索引,然后从 value 向量中提取该位置的值作为 reward。)    阅读全文
posted @ 2025-04-22 22:40
Big-Yellow-J
阅读(708)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号