摘要: 1. 初始化一个state * action大学的q_table 2. 采用ε贪心策略选择action,得到reward和下一步的状态 3. 根据reward和下一步的状态更新q_table import gym import numpy as np # 创建CliffWalking-v0环境 en 阅读全文
posted @ 2025-02-27 19:17 AI_Engineer 阅读(20) 评论(0) 推荐(0)
摘要: 下载安装包 Intel 芯片:访问Miniconda 官方下载页面,下载适用于 macOS 的 Intel 版本,即Miniconda3-latest-MacOSX-x86_64.sh。 M 系列芯片:同样在上述官方下载页面,下载适用于 macOS 的 ARM 版本,即Miniconda3-late 阅读全文
posted @ 2025-02-27 14:48 AI_Engineer 阅读(671) 评论(0) 推荐(0)