随笔档案「2020年12月26日」：第五章 Monte Carlo Methods 读书笔记 ... - invincible~

2020年12月26日

摘要：蒙特卡洛方法不需要对环境模型有完全的认识。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。可以从与真实环境的交互中学习，并不需要模型；能从模拟中学习，不需要概率分布。（不像DP，需要全部的分布，现在只需要给出reward和 next_state）可以从任意的state和action开始阅读全文

posted @ 2020-12-26 22:14 invincible~ 阅读(199) 评论(0) 推荐(0)

第四章 Dynamic Programming 读书笔记

摘要： The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the envir 阅读全文

posted @ 2020-12-26 22:01 invincible~ 阅读(155) 评论(0) 推荐(0)

如何学习

摘要：学习需要什么简单知识的简单化，是快速高效地学习必经之路。兴趣没有兴趣，不好玩，还学个锤子。自信没有自信，啥都不好办。如何高效学习站在巨人的肩膀上，通过：书籍视频博客自己练习写博客给别人讲自己练习、实操。如果可以，找教练等等。阅读全文

posted @ 2020-12-26 21:17 invincible~ 阅读(205) 评论(0) 推荐(0)

第三章 Finite Markov Decision Processes读书笔记

摘要：在这一章中我们介绍了贯穿本书的马尔科夫决策过程。这类问题包括评定性的反馈和关联因素（在不同的情况下选择不同的行为）。MDPs是进行序列决策的典型的形式化，在这里行为不仅影响即时的reward还影响接下来的情况。所以MDPs包含延迟报酬并且需要权衡即时reward和延迟reward。 3.1智能体环境阅读全文

posted @ 2020-12-26 16:46 invincible~ 阅读(131) 评论(0) 推荐(0)

markdown

摘要：引用插入空格 &nbsp 一行 &ensp 二行 &emsp 四行插入链接显示文本比如百度插入图片 ![]() 代码引用 ```language ``` 表格自定义目录 [事务的概念和特性？](#事务的概念和特性) 阅读全文

posted @ 2020-12-26 16:43 invincible~ 阅读(58) 评论(0) 推荐(0)

VMWare网络连接

摘要：桥接 VMnet0，一般用桥接 NAT VMnet8 Host only VMnet1 命令 ifconfig interface ifconfig lo 自我回环测试用 eth0 ifconfig eth0 192.168.x.x 阅读全文

posted @ 2020-12-26 16:31 invincible~ 阅读(64) 评论(0) 推荐(0)

宇宙第一编辑器 vscode

摘要： vscode基础 coder runner c c++ 设置自动保存：setting-> auto save → onFocusChange 写html 直接打开文件夹，新建html文件。 emmet补全插件十分强大打！直接按enter可以自动写好模版打h 直接补全开始闭合标签写c语言阅读全文

posted @ 2020-12-26 14:13 invincible~ 阅读(123) 评论(0) 推荐(0)

rearGarden

最强的知识在自己心中。

公告