2019 年 1月随笔档案 - Angry_Panda

基于值函数的强化学习小例子（策略退化）

摘要：前情提要：取自：http://news.ifeng.com/a/20170515/51093579_0.shtml 值函数估计离散状态下可以用表格来表示值函数或策略；但进入连续状态空间就要用一个函数的近似来表示，这个方法叫做值函数近似。比如，我们可以用一个线性函数来表示，V值是表示状态s下面的阅读全文

posted @ 2019-01-24 15:20 Angry_Panda 阅读(2437) 评论(0) 推荐(0)

动态规划中策略迭代和值迭代的一个小例子

摘要：强化学习中动态规划是解决已知状态转移概率和奖励值情况下的解决方法，这种情况下我们一般可以采取动态规划中的策略迭代和值迭代的方式来进行求解，下面给出一个具体的小例子。动态规划可以看成是构成强化学习问题的一个子问题，与其说是一个子问题更不如说是一种特殊情况，动态规划中我们是知道 reward 和阅读全文

posted @ 2019-01-24 13:47 Angry_Panda 阅读(6171) 评论(0) 推荐(4)

爬格子问题（经典强化学习问题） Sarsa 与 Q-Learning 的区别

摘要：SARSA v.s. Q-learning 爬格子问题，是典型的经典强化学习问题。动作是上下左右的走，每走一步就会有一个-1的奖赏。从初始状态走到最终的状态，要走最短的路才能使奖赏最大。图中有一个悬崖，一旦走到悬崖奖赏会极小，而且还要再退回这个初始状态。如上图所示，起始点为S, 终点为G ，没阅读全文

posted @ 2019-01-24 09:25 Angry_Panda 阅读(4162) 评论(0) 推荐(0)

南京大学俞扬博士：强化学习前沿（下） (转载)

摘要：来源：雷锋网原地址： http://news.ifeng.com/a/20170515/51093579_0.shtml 雷锋网［AI科技评论］按：本文根据俞扬博士在中国人工智能学会AIDL第二期人工智能前沿讲习班"机器学习前沿"所作报告《强化学习前沿》编辑整理而来，雷锋网在未改变原意的基础上略作阅读全文

posted @ 2019-01-23 14:27 Angry_Panda 阅读(1760) 评论(0) 推荐(0)

南京大学俞扬博士万字演讲全文：强化学习前沿（上）（转载）

摘要：来源：雷锋网本文作者：奕欣原文地址： https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html?ulu-rcmd=0_5021df_hot_0_41e3d7778364408ea35b031618a12a68 导语：本文根据俞扬博士阅读全文

posted @ 2019-01-22 21:22 Angry_Panda 阅读(1278) 评论(0) 推荐(0)

Learning from delayed reward (Q-Learning的提出) （Watkins博士毕业论文）（建立了现在的reinforcement Learning模型）

摘要：最近在在学习强化学习方面的东西，对于现有的很多文章中关于强化学习的知识很是不理解，很多都是一个公式套一个公式，也没有什么太多的解释，感觉像是在看天书一般，经过了较长时间的挣扎最后决定从一些基础的东西开始入手，于是便有了这篇论文的发现。 Learning from Delayed Reward 该论阅读全文

posted @ 2019-01-11 20:47 Angry_Panda 阅读(5417) 评论(0) 推荐(0)

ubuntu18.04 server配置静态ip (转载)

摘要：原文地址: https://blog.csdn.net/mossan/article/details/80381679 最新发布的ubuntu18.04 server，启用了新的网络工具netplan，对于命令行配置网络参数跟之前的版本有比较大的差别，现在介绍如下：1.其网络配置文件是放在/etc/ 阅读全文

posted @ 2019-01-11 14:27 Angry_Panda 阅读(1362) 评论(0) 推荐(0)

强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）

摘要：强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了，最近在看这本书，第一章中给出了一个例子用来说明什么是强化学习，那就是tic-and-toc游戏，感觉这个名很不Chinese，感觉要是用中文来说应该叫三子棋啥的才形阅读全文

posted @ 2019-01-10 10:02 Angry_Panda 阅读(1288) 评论(0) 推荐(0)

杨强：深度学习、强化学习、迁移学习的结合及应用进展（转载）

摘要：原文地址： https://blog.csdn.net/happytofly/article/details/80124513 作为首位美国人工智能协会（AAAI）华人Fellow，唯一AAAI华人Councilor，国际顶级学术会议KDD、IJCAI等大会主席，香港科技大学计算机与工程系主任杨强教阅读全文

posted @ 2019-01-08 11:28 Angry_Panda 阅读(3036) 评论(0) 推荐(0)

做强化学习，怎么往下走，个人思考

摘要：阅读全文

posted @ 2019-01-08 10:52 Angry_Panda 阅读(217) 评论(1) 推荐(0)

[python]自问自答：python -m参数？（ python3.7 版本）

摘要：最近在看Python代码的时候看到了一种形式，即 python -m 这种形式，查了一些博客，发现了一篇写的还不错，转载了过来，不过那里面写的是Python2.7的环境和python3还是有些区别的，下面给出Python2.7形式的如下： https://www.cnblogs.com/devi 阅读全文

posted @ 2019-01-07 21:42 Angry_Panda 阅读(2390) 评论(1) 推荐(0)

常用增强学习实验环境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （转载）

摘要：原文链接：http://blog.csdn.net/jinzhuojun/article/details/78508203 前段时间Nature上发表的升级版Alpha Go - AlphaGo Zero再一次成为热点话题。作为其核心技术之一的Deep reinforcement learning（阅读全文

posted @ 2019-01-07 14:38 Angry_Panda 阅读(1352) 评论(0) 推荐(0)

常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) (转载)

摘要：原文地址：http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样，强化学习（Reinforcement Learning）也有一些经典的实验场景，像Mountain-Car，Cart-Pole等。话说很久以前，因为没阅读全文

posted @ 2019-01-07 14:28 Angry_Panda 阅读(2916) 评论(0) 推荐(0)

[python]自问自答：python -m参数？（转）（ python2.7 版本）

摘要：原文地址： http://www.cnblogs.com/xueweihan/p/5118222.html python -m xxx.py 作用是：把xxx.py文件当做模块启动但是我一直不明白当做模块启动到底有什么用。python xxx.py和python -m xxx.py有什么区别！自阅读全文

posted @ 2019-01-06 21:34 Angry_Panda 阅读(576) 评论(0) 推荐(0)

强化学习常用平台

摘要：本篇博客主要是讲一下强化学习的一些常用平台，强化学习的发展已经好多年了，以前都是大家做什么实验然后都是自己编写环境代码，由于很多人的代码都是不公开的所以其他人要继续做前人的工作就需要自己重新构建环境代码，这样做一方面做了很多重复工作，浪费了大量的时间，而且很没有必要，另一方面每个人都重新编写各自的阅读全文

posted @ 2019-01-06 15:04 Angry_Panda 阅读(3744) 评论(0) 推荐(1)

强化学习 CartPole实验的一些启发有没有可能设计一个新的实验呢？（杆子可以向360度方向倾倒，可行吗？）

摘要：最近在看强化学习方面的东西，突然想到了这么一个事情，那就是经典的CartPole游戏我们改变一下，或者说升级一下，那么使用强化学习是否能得到不错的效果呢？原始游戏如图：一点个人的想法：阅读全文

posted @ 2019-01-06 10:28 Angry_Panda 阅读(348) 评论(1) 推荐(0)

强化学习平台 openAI 的 gym 安装（Ubuntu环境下如何安装Python的gym模块）

摘要：openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装。 openAI公司的主页： https://www.openai.com/systems/ 从主页上我们可以看到openAI 公司其实给出了多个强化学习的平台，不过最主要的就是 Gym 和 Baselin 阅读全文

posted @ 2019-01-05 23:55 Angry_Panda 阅读(6597) 评论(0) 推荐(0)

torch7 安装并安装 hdf5模块 torch模块 nn模块（系统平台为 ubuntu18.04 版本）

摘要：今年的CCF A会又要开始投稿了，实验室的师弟还在玩命的加实验，虽然我属于特殊情况是该从靠边站被老板扶正但是实验室的事情我也尽力的去帮助大家，所以师弟在做实验的时候遇到了问题也会来问问我，这次遇到的一个问题就是torch7的安装，以及 hdf5模块，torch模块， nn模块的安装搞不上，于是乎阅读全文

posted @ 2019-01-05 11:10 Angry_Panda 阅读(2902) 评论(0) 推荐(0)

对论文组成部分-------“研究现状” 的一些理解，及开题答辩有感