03 2025 档案

摘要:在 Python 里,列表(list)是一种非常常用且功能强大的数据结构,它可以存储多个元素,且这些元素的类型可以不同。下面将从多个方面对 Python 列表进行详细介绍。 1. 列表的创建 可以使用方括号 [] 来创建一个列表,也可以使用 list() 函数。以下是一些创建列表的示例: # 创建一 阅读全文
posted @ 2025-03-25 17:24 icuic 阅读(86) 评论(0) 推荐(0)
摘要:在强化学习中,SARSA和Q-Learning是两种经典的时间差分(TD)控制算法,用于优化智能体的策略。它们的核心区别在于目标Q值的计算方式,分别对应在线策略(On-Policy)和离线策略(Off-Policy)的学习范式。以下是两者的详细介绍和对比: 一、Q-Learning 算法 1. 核心 阅读全文
posted @ 2025-03-23 23:29 icuic 阅读(364) 评论(0) 推荐(0)
摘要:在 Python 里,try 和 except 语句用于处理异常,也就是程序运行时出现的错误。异常处理能让你在程序碰到错误时不直接崩溃,而是执行特定的代码逻辑来应对错误,增强程序的健壮性。 基本语法 try 和 except 语句的基本语法如下: try: # 可能会引发异常的代码块 pass ex 阅读全文
posted @ 2025-03-22 23:06 icuic 阅读(447) 评论(0) 推荐(0)
摘要:贝尔曼最优方程: \[\begin{align*} V^*(s) &= \max_{a\in\mathcal{A}}\left\{r(s,a) + \gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)V^*(s')\right\}\\ Q^*(s,a) &= r(s,a) + 阅读全文
posted @ 2025-03-19 20:31 icuic 阅读(290) 评论(0) 推荐(0)
摘要:\[\begin{align*} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t + 1})|S_{t}=s]\\ &=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s 阅读全文
posted @ 2025-03-19 20:03 icuic 阅读(117) 评论(0) 推荐(0)
摘要:np.array 是 NumPy 库中用于创建数组的核心函数。NumPy 是 Python 里用于科学计算的基础库,np.array 能将 Python 的列表、元组等可迭代对象转换为 NumPy 数组,这种数组在处理大规模数据时具有高效性和便捷性,支持多种数学运算和操作。 基本用法 import 阅读全文
posted @ 2025-03-19 17:18 icuic 阅读(492) 评论(0) 推荐(0)
摘要:enumerate是Python的内置函数,用于将一个可迭代对象(如列表、元组、字符串等)组合为一个索引序列,同时列出数据和数据的索引。它在遍历可迭代对象时十分有用,能简化代码编写,提高代码的可读性。 基本语法 enumerate(iterable, start=0),其中iterable是必选参数 阅读全文
posted @ 2025-03-19 11:03 icuic 阅读(301) 评论(0) 推荐(0)
摘要:np.random 是 NumPy 库中用于生成随机数的模块。NumPy 是 Python 里用于科学计算的基础库,np.random 模块提供了多种生成随机数的函数,可用于模拟、统计实验、机器学习等众多场景。下面介绍一些常用的函数及其用法: 1. 生成随机整数 np.random.randint( 阅读全文
posted @ 2025-03-19 09:59 icuic 阅读(272) 评论(0) 推荐(0)