2021 年 11月 22 日随笔档案 - B站-水论文的程序猿

2021年11月22日

摘要：实例：（Flappy Bird Q-learning）问题分析让小鸟学习怎么飞是一个强化学习（reinforcement learning）的过程，强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体（Agent，在这里就是指我们聪明的小鸟）需要根据当前状阅读全文

posted @ 2021-11-22 08:56 B站-水论文的程序猿阅读(320) 评论(0) 推荐(0)

【B站：水论文的程序猿】

道阻且长，与君共勉

公告