摘要: 在强化学习中,策略梯度算法是一类直接优化策略的方法,与基于值函数的方法(如Q-learning)不同,它通过参数化策略并沿性能梯度方向更新参数来学习最优策略。策略梯度方法具有处理连续动作空间、收敛性保证等优点,已成为深度强化学习中的核心算法之一。本文将介绍策略梯度的基本定理、关键组件(如优势函数)以 阅读全文
posted @ 2025-11-04 20:19 黑冰5 阅读(39) 评论(0) 推荐(0)
摘要: 优化算法三剑客:SGD、Adam、AdamW的深度对比 1. 引言:模型训练的"导航系统" 想象一下,你正在一个复杂的地形中寻找最低点(最小损失),四周浓雾弥漫(高维空间不可视)。优化算法就是你的GPS导航系统,它决定着你如何一步步走向目的地。 今天我们要认识三位风格迥异的"导航员":稳重的老将SG 阅读全文
posted @ 2025-11-04 19:42 黑冰5 阅读(247) 评论(0) 推荐(0)
摘要: 从零开始搭建你的 Hexo 静态博客(支持 macOS 与 Windows) 本文将手把手教你如何在 macOS 和 Windows 上使用 Hexo 搭建一个属于自己的静态博客,并部署到 GitHub Pages。文末还附带常见问题及解决方案,助你避开“坑”。 为什么选择 Hexo? Hexo 是 阅读全文
posted @ 2025-11-04 19:39 黑冰5 阅读(138) 评论(0) 推荐(0)
runAll: function() { this.resetPreCode(); hljs.initHighlightingOnLoad(); // 重新渲染,添加语法高亮 hljs.initLineNumbersOnLoad(); // 为代码加上行号 }