摘要: 强化学习下两类:有模型和无模型。意思就是字面意思,就是算法里有没有网络模型。 没有模型的强化算法有: Q-learning, Sarsa. (PS: 垃圾中的战斗机,了解就行, 有一个Q表,不停迭代) 有模型的强化算法有: 有太多了,没有必要纠结。 常见的就是DQN家族算法,PPO,A2C, A3C 阅读全文
posted @ 2023-11-16 23:58 Please Call me 小强 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 假设有一个过程: 状态S1 -> 状态S22 -> 状态S33 -> 状态S 如果上面的过程加一个条件,下一个状态只与当前状态有关, 那么可以理解为这个过程就是马尔可夫过程 说明:当前状态S1到下一个状态S22只是其中一个路径,到下一状态还有可能是S21. S23 等等。。。 依此类推 大脑可以想象 阅读全文
posted @ 2023-11-16 22:39 Please Call me 小强 阅读(22) 评论(0) 推荐(0) 编辑