随笔分类 -  强化学习

摘要:按照教程中的顺序,昨天看了China_A_share_market_tushare.ipynb,花费了大半天时间,真是一言难尽。 全是坑: 上一个例程用的是 FinRL,这一个例程用的却是 FinRL-Meta。 FinRL-Mete/meta/data_processors/tushare.py 阅读全文
posted @ 2025-09-11 09:13 icuic 阅读(59) 评论(0) 推荐(0)
摘要:每天都是刷手机,无所事事,找点事做。 本文将以 FinRL-Tutorials 仓库中的 Stock_NeurIPS2018_SB3.ipynb 为基础,学习如何使用 FinRL 框架和 Stable Baselines3 库来训练多个深度强化学习算法进行股票交易。 这个 Jupyter noteb 阅读全文
posted @ 2025-09-07 17:31 icuic 阅读(412) 评论(0) 推荐(0)
摘要:近几年在强化学习基础理论方面花了好多时间,但因为没有实际项目经验,压根找不到相关工作。白瞎了这几年所花的金钱、时间和精力。 想找个项目来做做,需要硬件的玩不起,那就找个纯软件的吧。 FinRL 看起来不错,打算试一试。FinRL 是哥伦比亚大学团队开源的“金融强化学习一站式工具箱”,专门用来快速开发 阅读全文
posted @ 2025-09-02 20:47 icuic 阅读(1179) 评论(0) 推荐(0)
摘要:一直区分不清楚熵、交叉熵、KL散度有什么区别和联系。 前几天特意理解了一下,记录下来,以后忘了方便再来复习。 熵(Entropy) 熵是单个概率分布的 “不确定性” 或 “混乱程度” 的度量。 对于离散随机变量X,假定其概率分布为 \(p(x)\),则它的熵定义为: \[H(p) = -\sum_{ 阅读全文
posted @ 2025-08-21 19:55 icuic 阅读(371) 评论(0) 推荐(0)
摘要:贝尔曼方程、贝尔曼期望方程和贝尔曼最优方程是强化学习中描述状态值函数或动作值函数的核心方程,它们在不同场景下有不同的形式和用途。 以下是它们的定义、区别和联系: 1. 贝尔曼方程(Bellman Equation) 定义: 贝尔曼方程是一个广义的概念,它描述了状态值函数 $ V(s) $ 或动作值函 阅读全文
posted @ 2025-04-30 20:12 icuic 阅读(1438) 评论(1) 推荐(2)
摘要:在强化学习中,SARSA和Q-Learning是两种经典的时间差分(TD)控制算法,用于优化智能体的策略。它们的核心区别在于目标Q值的计算方式,分别对应在线策略(On-Policy)和离线策略(Off-Policy)的学习范式。以下是两者的详细介绍和对比: 一、Q-Learning 算法 1. 核心 阅读全文
posted @ 2025-03-23 23:29 icuic 阅读(393) 评论(0) 推荐(0)
摘要:贝尔曼最优方程: \[\begin{align*} V^*(s) &= \max_{a\in\mathcal{A}}\left\{r(s,a) + \gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)V^*(s')\right\}\\ Q^*(s,a) &= r(s,a) + 阅读全文
posted @ 2025-03-19 20:31 icuic 阅读(330) 评论(0) 推荐(0)
摘要:\[\begin{align*} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\ &=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s 阅读全文
posted @ 2025-03-19 20:03 icuic 阅读(139) 评论(0) 推荐(0)