摘要:前情提要: 取自:http://news.ifeng.com/a/20170515/51093579_0.shtml 值函数估计 离散状态下可以用表格来表示值函数或策略;但进入连续状态空间就要用一个函数的近似来表示,这个方法叫做值函数近似。 比如,我们可以用一个线性函数来表示,V值是表示状态s下面的
阅读全文
摘要:强化学习中动态规划是解决已知状态转移概率和奖励值情况下的解决方法,这种情况下我们一般可以采取动态规划中的 策略迭代和值迭代的方式来进行求解,下面给出一个具体的小例子。 动态规划可以看成是构成强化学习问题的一个子问题, 与其说是一个子问题更不如说是一种特殊情况,动态规划中我们是知道 reward 和
阅读全文
摘要:SARSA v.s. Q-learning 爬格子问题,是典型的经典强化学习问题。 动作是上下左右的走,每走一步就会有一个-1的奖赏。从初始状态走到最终的状态,要走最短的路才能使奖赏最大。图中有一个悬崖,一旦走到悬崖奖赏会极小,而且还要再退回这个初始状态。 如上图所示,起始点为S, 终点为G , 没
阅读全文
摘要:来源:雷锋网 原地址: http://news.ifeng.com/a/20170515/51093579_0.shtml 雷锋网[AI科技评论]按:本文根据俞扬博士在中国人工智能学会AIDL第二期人工智能前沿讲习班"机器学习前沿"所作报告《强化学习前沿》编辑整理而来,雷锋网在未改变原意的基础上略作
阅读全文
摘要:来源: 雷锋网 本文作者:奕欣 原文地址: https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html?ulu-rcmd=0_5021df_hot_0_41e3d7778364408ea35b031618a12a68 导语: 本文根据俞扬博士
阅读全文
摘要:最近在在学习强化学习方面的东西, 对于现有的很多文章中关于强化学习的知识很是不理解,很多都是一个公式套一个公式,也没有什么太多的解释,感觉像是在看天书一般,经过了较长时间的挣扎最后决定从一些基础的东西开始入手,于是便有了这篇论文的发现。 Learning from Delayed Reward 该论
阅读全文
摘要:原文地址: https://blog.csdn.net/mossan/article/details/80381679 最新发布的ubuntu18.04 server,启用了新的网络工具netplan,对于命令行配置网络参数跟之前的版本有比较大的差别,现在介绍如下:1.其网络配置文件是放在/etc/
阅读全文
摘要:强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了, 最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习,那就是tic-and-toc游戏, 感觉这个名很不Chinese,感觉要是用中文来说应该叫三子棋啥的才形
阅读全文
摘要:原文地址: https://blog.csdn.net/happytofly/article/details/80124513 作为首位美国人工智能协会(AAAI)华人Fellow,唯一AAAI华人Councilor,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学计算机与工程系主任杨强教
阅读全文
摘要:最近在看Python代码的时候看到了一种形式, 即 python -m 这种形式, 查了一些博客,发现了一篇写的还不错,转载了过来,不过那里面写的是Python2.7的环境和python3还是有些区别的,下面给出Python2.7形式的如下: https://www.cnblogs.com/devi
阅读全文
摘要:原文链接:http://blog.csdn.net/jinzhuojun/article/details/78508203 前段时间Nature上发表的升级版Alpha Go - AlphaGo Zero再一次成为热点话题。作为其核心技术之一的Deep reinforcement learning(
阅读全文
摘要:原文地址:http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样,强化学习(Reinforcement Learning)也有一些经典的实验场景,像Mountain-Car,Cart-Pole等。话说很久以前,因为没
阅读全文
摘要:原文地址: http://www.cnblogs.com/xueweihan/p/5118222.html python -m xxx.py 作用是:把xxx.py文件当做模块启动 但是我一直不明白当做模块启动到底有什么用。python xxx.py和python -m xxx.py有什么区别! 自
阅读全文
摘要:本篇博客主要是讲一下强化学习的一些常用平台, 强化学习的发展已经好多年了,以前都是大家做什么实验然后都是自己编写环境代码,由于很多人的代码都是不公开的所以其他人要继续做前人的工作就需要自己重新构建环境代码,这样做一方面做了很多重复工作,浪费了大量的时间,而且很没有必要,另一方面每个人都重新编写各自的
阅读全文
摘要:最近在看强化学习方面的东西,突然想到了这么一个事情,那就是经典的CartPole游戏我们改变一下,或者说升级一下,那么使用强化学习是否能得到不错的效果呢? 原始游戏如图: 一点个人的想法:
阅读全文
摘要:openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装。 openAI公司的主页: https://www.openai.com/systems/ 从主页上我们可以看到openAI 公司其实给出了多个强化学习的平台,不过最主要的就是 Gym 和 Baselin
阅读全文
摘要:今年的CCF A会又要开始投稿了,实验室的师弟还在玩命的加实验,虽然我属于特殊情况是该从靠边站被老板扶正但是实验室的事情我也尽力的去帮助大家,所以师弟在做实验的时候遇到了问题也会来问问我,这次遇到的一个问题就是torch7的安装,以及 hdf5模块,torch模块 , nn模块的安装 搞不上,于是乎
阅读全文
摘要:今天是我这一级的研究生开题答辩,很不幸,我由于一些无法解决的问题无缘这次开题答辩,无奈延期之余我还是饶有兴致的去参加了这一次的开题答辩,作为一个旁观者感觉还是不错的,忘却所有不开心的事情,总是要往好的地方去想的嘛。 今天这是听答辩会还是很有收获的,第一个是知道了同级的同学都在做什么方向的研究,第二个
阅读全文
摘要:2019年元旦一月一日,新一年的第一天,实验室开会。作为新一年的第一天,比较有兴致,虽然早早的起来但是在床上刷起了朋友圈,突然想起好像早上有个开会,于是急忙问师弟,得知9:30开会,此时一看时间却已是早上9:00,于是从床上怕了下来,未洗漱吃饭便直接跑去了实验室,于是有了下面的会议记录。
阅读全文