随笔档案「2024年2月15日」：【Python】强化学习Q-Learning走迷宫 ... - Dsp Tian

2024年2月15日

摘要： Q-Learning是一种基于值函数的强化学习算法，这里用该算法解决走迷宫问题。算法步骤如下： 1. 初始化 Q 表：每个表格对应状态动作的 Q 值。这里就是一个H*W*4的表，4代表上下左右四个动作。 2. 选择动作：根据 Q 表格选择最优动作或者以一定概率随机选择动作。 3. 执行动作，得到阅读全文

posted @ 2024-02-15 13:08 Dsp Tian 阅读(1128) 评论(0) 推荐(0)

Dsp Tian

公告