2025 年 7月 13 日随笔档案 - jack-chen666

2025年7月13日

摘要：目录参考内容1. 从 Q-table 到 Q-Network如何训练 Q-Network？—— 损失函数技巧一：经验回放 (Experience Replay)技巧二：固定Q目标 (Fixed Q-Targets)DQN 算法完整流程参考 https://g.co/gemini/share/001 阅读全文

posted @ 2025-07-13 21:38 jack-chen666 阅读(39) 评论(0) 推荐(0)

大模型- 强化学习-Q-learning--81

摘要：目录参考Q-learning1. 核心思想：动作价值函数 Q(s, a)关键特性：异策略 (Off-policy)3. Q-learning 的更新公式4. Q-learning 算法流程5. 与 SARSA 的对比代码解读核心概念：状态离散化数据结构：Q-Table核心算法：Q-Learning 阅读全文

posted @ 2025-07-13 11:51 jack-chen666 阅读(207) 评论(0) 推荐(0)

大模型- 强化学习-蒙特卡洛（Monte Carlo）和时序差分（Temporal-Difference, TD）--81

摘要：目录参考蒙特卡洛（Monte Carlo）时序差分学习 (Temporal-Difference, TD)N步自举 (n-step Bootstrapping) 参考 Https://newfacade.github.io/notes-on-reinforcement-learning/07-mon 阅读全文

posted @ 2025-07-13 11:24 jack-chen666 阅读(91) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情