2025 年 7月 14 日随笔档案 - jack-chen666

2025年7月14日

摘要：目录参考内容为什么要直接学习策略？核心思想：参数化策略与目标函数数学核心：策略梯度定理REINFORCE 算法：一种简单的实现代码解读 (以CartPole为例)总结与展望完整代码参考 https://gemini.google.com/app/247cc5d3d5bad7de https://n 阅读全文

posted @ 2025-07-14 16:39 jack-chen666 阅读(175) 评论(0) 推荐(0)

大模型- 强化学习-Deep-Q-learning-pytorch实现--83

摘要：目录参考内容代码背景回顾准备工作：环境、参数与经验回放动作选择 (select_action)模型优化 (optimize_model)主训练循环全部代码参考 https://newfacade.github.io/notes-on-reinforcement-learning/10-dqn-to 阅读全文

posted @ 2025-07-14 00:01 jack-chen666 阅读(64) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情