摘要: 目录参考内容策略评估 (Policy Evaluation)迭代式策略评估 (Iterative Policy Evaluation)策略改进 (Policy Improvement)值迭代 (Value Iteration) 参考 https://g.co/gemini/share/1488120 阅读全文
posted @ 2025-07-12 11:49 jack-chen666 阅读(59) 评论(0) 推荐(0)
摘要: 目录1. 参考Llamafactory配置自定义奖励函数复用api reward服务添加新的function参数实际操作添加读取llm模型逻辑,增加type为function的情况添加mini_batch_labels到get_rewards的入参通过reward function获取reward逻 阅读全文
posted @ 2025-07-12 11:25 jack-chen666 阅读(381) 评论(0) 推荐(0)