摘要:
蒙特卡洛方法不需要对环境模型有完全的认识。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。 可以从与真实环境的交互中学习,并不需要模型; 能从模拟中学习,不需要概率分布。(不像DP,需要全部的分布,现在只需要给出reward和 next_state) 可以从任意的state和action开始 阅读全文
posted @ 2020-12-26 22:14
invincible~
阅读(189)
评论(0)
推荐(0)
摘要:
The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the envir 阅读全文
posted @ 2020-12-26 22:01
invincible~
阅读(139)
评论(0)
推荐(0)
摘要:
学习需要什么 简单 知识的简单化,是快速高效地学习必经之路。 兴趣 没有兴趣,不好玩,还学个锤子。 自信 没有自信,啥都不好办。 如何高效学习 站在巨人的肩膀上,通过: 书籍 视频 博客 自己练习 写博客 给别人讲 自己练习、实操。 如果可以,找教练 等等。 阅读全文
posted @ 2020-12-26 21:17
invincible~
阅读(197)
评论(0)
推荐(0)
摘要:
在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素(在不同的情况下选择不同的行为)。MDPs是进行序列决策的典型的形式化,在这里行为不仅影响即时的reward还影响接下来的情况。所以MDPs包含延迟报酬并且需要权衡即时reward和延迟reward。 3.1智能体环境 阅读全文
posted @ 2020-12-26 16:46
invincible~
阅读(120)
评论(0)
推荐(0)
摘要:
引用 插入空格   一行 &ensp 二行 &emsp 四行 插入链接 显示文本 比如 百度 插入图片 ![]() 代码引用 ```language ``` 表格 自定义目录 [事务的概念和特性?](#事务的概念和特性) 阅读全文
posted @ 2020-12-26 16:43
invincible~
阅读(57)
评论(0)
推荐(0)
摘要:
桥接 VMnet0,一般用桥接 NAT VMnet8 Host only VMnet1 命令 ifconfig interface ifconfig lo 自我回环 测试用 eth0 ifconfig eth0 192.168.x.x 阅读全文
posted @ 2020-12-26 16:31
invincible~
阅读(57)
评论(0)
推荐(0)
摘要:
vscode基础 coder runner c c++ 设置自动保存:setting-> auto save → onFocusChange 写html 直接打开文件夹,新建html文件。 emmet补全插件 十分强大 打! 直接按enter可以自动写好模版 打h 直接补全开始 闭合标签 写c语言 阅读全文
posted @ 2020-12-26 14:13
invincible~
阅读(119)
评论(0)
推荐(0)

浙公网安备 33010602011771号