上一页 1 ··· 13 14 15 16 17
摘要: 前言 在不了解环境动态特性或已知动态特性有时求解不同状态的概率也很困难的情况下使用MC方法更加合理。 蒙特卡罗算法通过平均样本的回报来解决强化学习问题。它主要利用的是经验,从真实的环境交互或环境交互的仿真中得到一个采样队列(状态、动作和奖励)【这决定了该方法主要针对分幕式任务,即任务在有限步内完成。 阅读全文
posted @ 2021-05-22 17:31 芋圆院长 阅读(525) 评论(0) 推荐(0)
摘要: 在阅读Offline Reinforcement Learning的相关文章时有文章根据动态规划和策略梯度进行分类,在此加上进行一些简单的总结。主要参考了参考链接中的内容 前言 强化学习研究从总体思路上可以分为两个大方向,一种是通过值函数近似来得到策略 称其为动态规划;另一种是策略梯度,讲究直接用函 阅读全文
posted @ 2021-05-20 10:33 芋圆院长 阅读(317) 评论(0) 推荐(0)
摘要: 马尔可夫决策过程特征 · 状态、行动、奖励都是有限数值。下一次的状态和奖励只依赖于上一时刻的状态和行动。 · 马尔可夫决策过程与随机过程中的马尔可夫过程类似,不同点在于马尔可夫过程只看重状态之间的转移,主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中,增加了动作的概念,两个状态之间 阅读全文
posted @ 2021-05-20 09:36 芋圆院长 阅读(684) 评论(0) 推荐(0)
摘要: K臂赌博机问题描述: 重复在K个动作中选择,每次做出选择后都会得到一定数值的收益,收益由选择的动作决定的平稳概率分布产生,目标是在某一段时间内最大化总收益的期望。 问题解决思路: 选择收益(价值)最大的动作。知道价值则直接选择,不知道价值就通过多次试验估计价值。 动作值估计 大数定律(多次尝试这个动 阅读全文
posted @ 2021-05-19 10:46 芋圆院长 阅读(53) 评论(0) 推荐(0)
摘要: 强化学习理解 强化学习是智能体与环境的交互(探索和试错),通过交互信息来感知环境,从而调整自己的行为,选择出最好的结果。 强化学习更加侧重于从互动中进行目标导向的学习。 【将情境映射到行动,以便最大化数值奖赏信号。通俗理解为对人学习过程的简单模拟,相当于人做了多次的探索,把最后的劳动成果以状态值函数 阅读全文
posted @ 2021-05-18 11:19 芋圆院长 阅读(241) 评论(0) 推荐(0)
摘要: Python文本读取 .txt文件 优点:txt文件容易读取,不需要调库。只要数据没问题,一般不会出现奇奇怪怪的错误。【当然,调用库读取Excel表格有问题的话,可以直接删除表格中自己不要的行、列,直接另存为制表符分割的txt文件】 以文本由label 和 content两列组成为例 方法: wit 阅读全文
posted @ 2021-03-29 15:46 芋圆院长 阅读(164) 评论(0) 推荐(0)
摘要: 跟着翁恺老师学JAVA第一天:和学C一样 安装eclipse 创建新项目 创建类 写简单的输入输出功能 package hello_word; import java.util.Scanner; public class Hello { public static void main(String[ 阅读全文
posted @ 2021-03-04 10:22 芋圆院长 阅读(52) 评论(0) 推荐(0)
上一页 1 ··· 13 14 15 16 17