强化学习(2)----Q-learning
摘要:
1、Q-learning主要是Q表: 当前状态s1,接下来可以有两个动作选择,看电视a1和学习a2,对于agent人来说,可以根据reward来作出决策(Policy)。目的就是得到奖励最大。 Q-learning的目的就是学习特定state下、特定Action的价值。 Q-learning的方法是 阅读全文
posted @ 2018-09-17 17:00 吱吱了了 阅读(709) 评论(0) 推荐(0)
浙公网安备 33010602011771号