上一页 1 ··· 172 173 174 175 176 177 178 179 180 ··· 199 下一页

2019年1月24日

摘要: 强化学习中动态规划是解决已知状态转移概率和奖励值情况下的解决方法,这种情况下我们一般可以采取动态规划中的 策略迭代和值迭代的方式来进行求解,下面给出一个具体的小例子。 动态规划可以看成是构成强化学习问题的一个子问题, 与其说是一个子问题更不如说是一种特殊情况,动态规划中我们是知道 reward 和 阅读全文
posted @ 2019-01-24 13:47 Angry_Panda 阅读(5991) 评论(0) 推荐(4) 编辑
摘要: SARSA v.s. Q-learning 爬格子问题,是典型的经典强化学习问题。 动作是上下左右的走,每走一步就会有一个-1的奖赏。从初始状态走到最终的状态,要走最短的路才能使奖赏最大。图中有一个悬崖,一旦走到悬崖奖赏会极小,而且还要再退回这个初始状态。 如上图所示,起始点为S, 终点为G , 没 阅读全文
posted @ 2019-01-24 09:25 Angry_Panda 阅读(3813) 评论(0) 推荐(0) 编辑

2019年1月23日

摘要: 来源:雷锋网 原地址: http://news.ifeng.com/a/20170515/51093579_0.shtml 雷锋网[AI科技评论]按:本文根据俞扬博士在中国人工智能学会AIDL第二期人工智能前沿讲习班"机器学习前沿"所作报告《强化学习前沿》编辑整理而来,雷锋网在未改变原意的基础上略作 阅读全文
posted @ 2019-01-23 14:27 Angry_Panda 阅读(1690) 评论(0) 推荐(0) 编辑

2019年1月22日

摘要: 来源: 雷锋网 本文作者:奕欣 原文地址: https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html?ulu-rcmd=0_5021df_hot_0_41e3d7778364408ea35b031618a12a68 导语: 本文根据俞扬博士 阅读全文
posted @ 2019-01-22 21:22 Angry_Panda 阅读(1194) 评论(0) 推荐(0) 编辑

2019年1月11日

摘要: 最近在在学习强化学习方面的东西, 对于现有的很多文章中关于强化学习的知识很是不理解,很多都是一个公式套一个公式,也没有什么太多的解释,感觉像是在看天书一般,经过了较长时间的挣扎最后决定从一些基础的东西开始入手,于是便有了这篇论文的发现。 Learning from Delayed Reward 该论 阅读全文
posted @ 2019-01-11 20:47 Angry_Panda 阅读(4207) 评论(0) 推荐(0) 编辑
摘要: 原文地址: https://blog.csdn.net/mossan/article/details/80381679 最新发布的ubuntu18.04 server,启用了新的网络工具netplan,对于命令行配置网络参数跟之前的版本有比较大的差别,现在介绍如下:1.其网络配置文件是放在/etc/ 阅读全文
posted @ 2019-01-11 14:27 Angry_Panda 阅读(1331) 评论(0) 推荐(0) 编辑

2019年1月10日

摘要: 强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了, 最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习,那就是tic-and-toc游戏, 感觉这个名很不Chinese,感觉要是用中文来说应该叫三子棋啥的才形 阅读全文
posted @ 2019-01-10 10:02 Angry_Panda 阅读(1184) 评论(0) 推荐(0) 编辑

2019年1月8日

摘要: 原文地址: https://blog.csdn.net/happytofly/article/details/80124513 作为首位美国人工智能协会(AAAI)华人Fellow,唯一AAAI华人Councilor,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学计算机与工程系主任杨强教 阅读全文
posted @ 2019-01-08 11:28 Angry_Panda 阅读(2855) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-01-08 10:52 Angry_Panda 阅读(206) 评论(1) 推荐(0) 编辑

2019年1月7日

摘要: 最近在看Python代码的时候看到了一种形式, 即 python -m 这种形式, 查了一些博客,发现了一篇写的还不错,转载了过来,不过那里面写的是Python2.7的环境和python3还是有些区别的,下面给出Python2.7形式的如下: https://www.cnblogs.com/devi 阅读全文
posted @ 2019-01-07 21:42 Angry_Panda 阅读(2350) 评论(1) 推荐(0) 编辑
上一页 1 ··· 172 173 174 175 176 177 178 179 180 ··· 199 下一页

导航