2025 年 11月 4 日随笔档案 - 黑冰5

2025年11月4日

摘要：在强化学习中，策略梯度算法是一类直接优化策略的方法，与基于值函数的方法（如Q-learning）不同，它通过参数化策略并沿性能梯度方向更新参数来学习最优策略。策略梯度方法具有处理连续动作空间、收敛性保证等优点，已成为深度强化学习中的核心算法之一。本文将介绍策略梯度的基本定理、关键组件（如优势函数）以阅读全文

posted @ 2025-11-04 20:19 黑冰5 阅读(39) 评论(0) 推荐(0)

优化算法三剑客：SGD、Adam、AdamW的深度对比

摘要：优化算法三剑客：SGD、Adam、AdamW的深度对比 1. 引言：模型训练的"导航系统" 想象一下，你正在一个复杂的地形中寻找最低点（最小损失），四周浓雾弥漫（高维空间不可视）。优化算法就是你的GPS导航系统，它决定着你如何一步步走向目的地。今天我们要认识三位风格迥异的"导航员"：稳重的老将SG 阅读全文

posted @ 2025-11-04 19:42 黑冰5 阅读(247) 评论(0) 推荐(0)

从零开始搭建你的 Hexo 静态博客（支持 macOS 与 Windows）

摘要：从零开始搭建你的 Hexo 静态博客（支持 macOS 与 Windows）本文将手把手教你如何在 macOS 和 Windows 上使用 Hexo 搭建一个属于自己的静态博客，并部署到 GitHub Pages。文末还附带常见问题及解决方案，助你避开“坑”。为什么选择 Hexo？ Hexo 是阅读全文

posted @ 2025-11-04 19:39 黑冰5 阅读(138) 评论(0) 推荐(0)

黑冰5

公告