2025 年 7月 12 日随笔档案 - jack-chen666

2025年7月12日

摘要：目录参考内容策略评估 (Policy Evaluation)迭代式策略评估 (Iterative Policy Evaluation)策略改进 (Policy Improvement)值迭代 (Value Iteration) 参考 https://g.co/gemini/share/1488120 阅读全文

posted @ 2025-07-12 11:49 jack-chen666 阅读(59) 评论(0) 推荐(0)

大模型- llamafactory ppo微调自定义reward函数--79

摘要：目录1. 参考Llamafactory配置自定义奖励函数复用api reward服务添加新的function参数实际操作添加读取llm模型逻辑，增加type为function的情况添加mini_batch_labels到get_rewards的入参通过reward function获取reward逻阅读全文

posted @ 2025-07-12 11:25 jack-chen666 阅读(381) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情