摘要: 在学习强化学习的过程中,涉及了利用动态规划的思想对MDP进行训练,所以积累一些动态规划的算法知识 算法理论的内容研读了知乎上这的这个回答:动态规划理论 在他举得例子中:假设您是个土豪,身上带了足够的1、5、10、20、50、100元面值的钞票。现在您的目标是凑出某个金额w,需要用到尽量少的钞票。 依 阅读全文
posted @ 2020-10-11 17:19 兀凯奇 阅读(170) 评论(0) 推荐(0)
摘要: 2A题目 A. Winner The winner of the card game popular in Berland "Berlogging" is determined according to the following rules. If at the end of the game t 阅读全文
posted @ 2020-10-10 21:00 兀凯奇 阅读(128) 评论(0) 推荐(0)
摘要: 题目:hdoj_1007 Quoit Design Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 43000 Accepted Submis 阅读全文
posted @ 2020-10-08 22:34 兀凯奇 阅读(180) 评论(0) 推荐(0)
摘要: 马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容: 马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再 阅读全文
posted @ 2020-10-04 13:48 兀凯奇 阅读(1150) 评论(0) 推荐(0)
摘要: 1A_Theatre Squareatre Square in the capital city of Berland has a rectangular shape with the size n × m meters. On the occasion of the city's annivers 阅读全文
posted @ 2020-09-24 23:36 兀凯奇 阅读(208) 评论(0) 推荐(0)
摘要: 1. 首先复习一下平均时间复杂度为O(n)=n*log(n)的快速排序 //quicksort //从小到大排序 #include<iostream> using namespace std; void printf_shuzu(int name1[],int s){ for(int i=0;i<s 阅读全文
posted @ 2020-09-23 21:57 兀凯奇 阅读(205) 评论(0) 推荐(0)