芋圆院长

2021年5月22日

摘要：前言在不了解环境动态特性或已知动态特性有时求解不同状态的概率也很困难的情况下使用MC方法更加合理。蒙特卡罗算法通过平均样本的回报来解决强化学习问题。它主要利用的是经验，从真实的环境交互或环境交互的仿真中得到一个采样队列（状态、动作和奖励）【这决定了该方法主要针对分幕式任务，即任务在有限步内完成。阅读全文

posted @ 2021-05-22 17:31 芋圆院长阅读(525) 评论(0) 推荐(0)

2021年5月20日

动态规划（Dynamic Programming, DP）

摘要：在阅读Offline Reinforcement Learning的相关文章时有文章根据动态规划和策略梯度进行分类，在此加上进行一些简单的总结。主要参考了参考链接中的内容前言强化学习研究从总体思路上可以分为两个大方向，一种是通过值函数近似来得到策略称其为动态规划；另一种是策略梯度，讲究直接用函阅读全文

posted @ 2021-05-20 10:33 芋圆院长阅读(317) 评论(0) 推荐(0)

有限马尔可夫决策过程（Markov Decision Process, MDP）-- 强化学习策略和值函数

摘要：马尔可夫决策过程特征 · 状态、行动、奖励都是有限数值。下一次的状态和奖励只依赖于上一时刻的状态和行动。 · 马尔可夫决策过程与随机过程中的马尔可夫过程类似，不同点在于马尔可夫过程只看重状态之间的转移，主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中，增加了动作的概念，两个状态之间阅读全文

posted @ 2021-05-20 09:36 芋圆院长阅读(684) 评论(0) 推荐(0)

2021年5月19日

强化学习之多臂机

摘要： K臂赌博机问题描述：重复在K个动作中选择，每次做出选择后都会得到一定数值的收益，收益由选择的动作决定的平稳概率分布产生，目标是在某一段时间内最大化总收益的期望。问题解决思路：选择收益（价值）最大的动作。知道价值则直接选择，不知道价值就通过多次试验估计价值。动作值估计大数定律（多次尝试这个动阅读全文

posted @ 2021-05-19 10:46 芋圆院长阅读(53) 评论(0) 推荐(0)

2021年5月18日

强化学习建模之前必须思考的问题

摘要：强化学习理解强化学习是智能体与环境的交互（探索和试错），通过交互信息来感知环境，从而调整自己的行为，选择出最好的结果。强化学习更加侧重于从互动中进行目标导向的学习。【将情境映射到行动，以便最大化数值奖赏信号。通俗理解为对人学习过程的简单模拟，相当于人做了多次的探索，把最后的劳动成果以状态值函数阅读全文

posted @ 2021-05-18 11:19 芋圆院长阅读(241) 评论(0) 推荐(0)

2021年3月29日

Python文本读取

摘要： Python文本读取 .txt文件优点：txt文件容易读取，不需要调库。只要数据没问题，一般不会出现奇奇怪怪的错误。【当然，调用库读取Excel表格有问题的话，可以直接删除表格中自己不要的行、列，直接另存为制表符分割的txt文件】以文本由label 和 content两列组成为例方法： wit 阅读全文

posted @ 2021-03-29 15:46 芋圆院长阅读(164) 评论(0) 推荐(0)

2021年3月4日

JAVA_Day01

摘要：跟着翁恺老师学JAVA第一天：和学C一样安装eclipse 创建新项目创建类写简单的输入输出功能 package hello_word; import java.util.Scanner; public class Hello { public static void main(String[ 阅读全文

posted @ 2021-03-04 10:22 芋圆院长阅读(52) 评论(0) 推荐(0)

公告