2022 年 5月 16 日随笔档案 - MyAJY

2022年5月16日

摘要： Q-Learning算法输入：episodes \(T\)，状态集合 \(S\)，动作集合 \(A\)，步长 \(\alpha\)，衰减因子 \(\gamma\)，探索率 \(\epsilon\) 输出：所有状态和行为对应的 \(Q\) 值表随机初始化 \(Q\) 值表，终止状态所对应的 \(Q 阅读全文

posted @ 2022-05-16 00:01 MyAJY 阅读(1234) 评论(0) 推荐(0)

MyAJY

公告