摘要:
目录参考内容策略评估 (Policy Evaluation)迭代式策略评估 (Iterative Policy Evaluation)策略改进 (Policy Improvement)值迭代 (Value Iteration) 参考 https://g.co/gemini/share/1488120 阅读全文
posted @ 2025-07-12 11:49
jack-chen666
阅读(59)
评论(0)
推荐(0)
摘要:
目录1. 参考Llamafactory配置自定义奖励函数复用api reward服务添加新的function参数实际操作添加读取llm模型逻辑,增加type为function的情况添加mini_batch_labels到get_rewards的入参通过reward function获取reward逻 阅读全文
posted @ 2025-07-12 11:25
jack-chen666
阅读(381)
评论(0)
推荐(0)

浙公网安备 33010602011771号