会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
红豆生南国 是很遥远的事情
种豆南山下 github
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
32
下一页
2025年7月16日
大模型- 强化学习-GAE--87
摘要: 目录参考内容优势估计的“两难困境”GAE 的核心思想与公式GAE 的代码实现总结 参考 https://g.co/gemini/share/e45888162cfb https://newfacade.github.io/notes-on-reinforcement-learning/13-gae.
阅读全文
posted @ 2025-07-16 17:35 jack-chen666
阅读(207)
评论(0)
推荐(0)
2025年7月15日
大模型- 强化学习-策略梯度方法(Policy Gradient)log-derivative trick--86
摘要: 想象一下,你是一位国王,想让你的弓箭手们射箭射得更准。这里的“更准”就是我们要最大化的目标 J(θ),而 θ 就是你给弓箭手们的“指导方针”(比如,往哪个方向瞄准,用多大的力气等等)。 我们想调整这个“指导方针” θ,让所有弓箭手射出的箭靶得分的期望(平均分)最高。 J(θ) = E[R(τ)] J
阅读全文
posted @ 2025-07-15 20:47 jack-chen666
阅读(79)
评论(0)
推荐(0)
大模型- 强化学习-Actor-Critic (演员-评论家) --85
摘要: 目录参考内容为什么需要 Actor-Critic?—— REINFORCE 的痛点Actor-Critic 架构:两位一体的合作核心思想:用“优势”替代“回报”如何计算优势函数?—— TD 误差的登场算法与更新公式代码实现解读模型定义 参考 https://newfacade.github.io/n
阅读全文
posted @ 2025-07-15 15:57 jack-chen666
阅读(366)
评论(0)
推荐(0)
2025年7月14日
大模型- 强化学习-策略梯度 (Policy Gradients)--84
摘要: 目录参考内容为什么要直接学习策略?核心思想:参数化策略与目标函数数学核心:策略梯度定理REINFORCE 算法:一种简单的实现代码解读 (以CartPole为例)总结与展望完整代码 参考 https://gemini.google.com/app/247cc5d3d5bad7de https://n
阅读全文
posted @ 2025-07-14 16:39 jack-chen666
阅读(117)
评论(0)
推荐(0)
大模型- 强化学习-Deep-Q-learning-pytorch实现--83
摘要: 目录参考内容代码背景回顾准备工作:环境、参数与经验回放动作选择 (select_action)模型优化 (optimize_model)主训练循环全部代码 参考 https://newfacade.github.io/notes-on-reinforcement-learning/10-dqn-to
阅读全文
posted @ 2025-07-14 00:01 jack-chen666
阅读(51)
评论(0)
推荐(0)
2025年7月13日
大模型- 强化学习-Deep-Q-learning--82
摘要: 目录参考内容1. 从 Q-table 到 Q-Network如何训练 Q-Network?—— 损失函数技巧一:经验回放 (Experience Replay)技巧二:固定Q目标 (Fixed Q-Targets)DQN 算法完整流程 参考 https://g.co/gemini/share/001
阅读全文
posted @ 2025-07-13 21:38 jack-chen666
阅读(27)
评论(0)
推荐(0)
大模型- 强化学习-Q-learning--81
摘要: 目录参考Q-learning1. 核心思想:动作价值函数 Q(s, a)关键特性:异策略 (Off-policy)3. Q-learning 的更新公式4. Q-learning 算法流程5. 与 SARSA 的对比代码解读核心概念:状态离散化数据结构:Q-Table核心算法:Q-Learning
阅读全文
posted @ 2025-07-13 11:51 jack-chen666
阅读(160)
评论(0)
推荐(0)
大模型- 强化学习-蒙特卡洛(Monte Carlo)和时序差分(Temporal-Difference, TD)--81
摘要: 目录参考蒙特卡洛(Monte Carlo)时序差分学习 (Temporal-Difference, TD)N步自举 (n-step Bootstrapping) 参考 Https://newfacade.github.io/notes-on-reinforcement-learning/07-mon
阅读全文
posted @ 2025-07-13 11:24 jack-chen666
阅读(58)
评论(0)
推荐(0)
2025年7月12日
大模型- 强化学习中的DP 动态规划--80
摘要: 目录参考内容策略评估 (Policy Evaluation)迭代式策略评估 (Iterative Policy Evaluation)策略改进 (Policy Improvement)值迭代 (Value Iteration) 参考 https://g.co/gemini/share/1488120
阅读全文
posted @ 2025-07-12 11:49 jack-chen666
阅读(48)
评论(0)
推荐(0)
大模型- llamafactory ppo微调 自定义reward函数--79
摘要: 目录1. 参考Llamafactory配置自定义奖励函数复用api reward服务添加新的function参数实际操作添加读取llm模型逻辑,增加type为function的情况添加mini_batch_labels到get_rewards的入参通过reward function获取reward逻
阅读全文
posted @ 2025-07-12 11:25 jack-chen666
阅读(269)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
32
下一页
公告