摘要: 上一节课《通过DP求解》可以解决一个已知的马尔科夫决策过程 本节课 实践无模型预测 解决或者估计一个未知马尔科夫决策过程的价值函数 下一节课 实现无模型决策(Model-free control) 最优化一个马尔科夫决策过程的价值函数 阅读全文
posted @ 2021-01-17 19:36 Uzuki 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 动态(Dynamic):序列性又或是时序性的问题部分 规划(Programming):最优化一个程序(Program),i.e 一种策略 线性规划(Linear Programming) 显然马尔科夫决策过程就符合动态规划的顺序 阅读全文
posted @ 2021-01-17 18:09 Uzuki 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 最近在搞强化学习(Reinforcement Learning),打算把之前写的笔记整理一下 本文基于大卫 希尔维(David Silver)教授的强化学习概论课程,视频中所采用的样例学生马尔科夫链(Student MDPs)有时间再补上去 出处:[https://www.youtube.com/watch?v=lfHX2hHRMVQ&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ&index=2]() 阅读全文
posted @ 2020-09-26 10:04 Uzuki 阅读(518) 评论(0) 推荐(1) 编辑
摘要: 目录 "快速幂" "快速幂取模" "矩阵快速幂" "矩阵快速幂取模" "HDU1005练习" 快速幂 ​ 幂运算:$x ^ n$ ​ 根据其一般定义我们可以简单实现其非负整数情况下的函数 定义法: ​ 不难看出此时算法的时间复杂度是$O(n)$,一旦n取较大数值,计算时间就会大大增加,极其容易出现超 阅读全文
posted @ 2019-12-04 23:21 Uzuki 阅读(368) 评论(0) 推荐(1) 编辑