摘要:
贝尔曼最优方程: \[\begin{align*} V^*(s) &= \max_{a\in\mathcal{A}}\left\{r(s,a) + \gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)V^*(s')\right\}\\ Q^*(s,a) &= r(s,a) + 阅读全文
posted @ 2025-03-19 20:31
icuic
阅读(215)
评论(0)
推荐(0)
摘要:
\[\begin{align*} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\ &=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s 阅读全文
posted @ 2025-03-19 20:03
icuic
阅读(72)
评论(0)
推荐(0)
摘要:
np.array 是 NumPy 库中用于创建数组的核心函数。NumPy 是 Python 里用于科学计算的基础库,np.array 能将 Python 的列表、元组等可迭代对象转换为 NumPy 数组,这种数组在处理大规模数据时具有高效性和便捷性,支持多种数学运算和操作。 基本用法 import 阅读全文
posted @ 2025-03-19 17:18
icuic
阅读(367)
评论(0)
推荐(0)
摘要:
enumerate是Python的内置函数,用于将一个可迭代对象(如列表、元组、字符串等)组合为一个索引序列,同时列出数据和数据的索引。它在遍历可迭代对象时十分有用,能简化代码编写,提高代码的可读性。 基本语法 enumerate(iterable, start=0),其中iterable是必选参数 阅读全文
posted @ 2025-03-19 11:03
icuic
阅读(184)
评论(0)
推荐(0)
摘要:
np.random 是 NumPy 库中用于生成随机数的模块。NumPy 是 Python 里用于科学计算的基础库,np.random 模块提供了多种生成随机数的函数,可用于模拟、统计实验、机器学习等众多场景。下面介绍一些常用的函数及其用法: 1. 生成随机整数 np.random.randint( 阅读全文
posted @ 2025-03-19 09:59
icuic
阅读(199)
评论(0)
推荐(0)

浙公网安备 33010602011771号