2023 年 3月 13 日随笔档案 - 阿Qi早起了吗

2023年3月13日

摘要： Q-Learning是RL算法：训练 Q 函数，这是一个操作-值函数，它包含作为内部存储器的 Q 表，其中包含所有状态-操作对值。给定一个状态和动作，我们的 Q 函数将在其 Q 表中搜索相应的值。 Q-Learning伪代码： step1：初始化Q-Table step2：使用epsilon贪婪阅读全文

posted @ 2023-03-13 22:13 阿Qi早起了吗阅读(245) 评论(0) 推荐(0)

什么是强化学习

摘要：强化学习流程：我们的代理从环境接收 — 我们接收游戏的第一帧（环境） State S0 基于代理采取的情况 — 我们的代理将向右移动 S0 action A0 环境走向新的——新的框架 State S0 环境给了代理一些——我们没有死（正面奖励+1）Reward R0 RL 循环输出一系列状态、操阅读全文

posted @ 2023-03-13 20:00 阿Qi早起了吗阅读(203) 评论(0) 推荐(0)

公告