2020 年 12月随笔档案 - 维和战艇机

强化学习学习笔记（第二章，多臂赌博机）

摘要：本章节以多臂赌博机为模型，介绍了若干个在简化环境下的强化学习算法（动作不会影响下一时刻的情景和收益） 1、贪心算法，每次选择期望收益最大的动作 2、ξ-贪心，在贪心算法的基础上，有ξ的概率从所有的动作中等概率选择一个。ξ如果比较大可以更快的找到收益最大的动作，但是会影响选择选择收益最大动作的概率（ξ 阅读全文

posted @ 2020-12-29 20:42 维和战艇机阅读(125) 评论(0) 推荐(0)

强化学习学习笔记（第一章）

摘要：强化学习与常见机器学习方法的区别： 1、有监督学习：有监督学习是从外部监督者提供的带标注的训练集当中进行学习，这种学习方式是为了让系统具有推断或泛华的能力。 2、无监督学习：无监督学习是一个典型的寻找未标注的数据中的隐含结构的问题。 3、强化学习：强化学习是一种对目标导向的学习与决策进行理解和阅读全文

posted @ 2020-12-28 18:00 维和战艇机阅读(312) 评论(0) 推荐(0)

高等数学常见证明总结

摘要：二元函数极值判定方法证明：https://wenku.baidu.com/view/180ec113cc7931b765ce157c.html 阅读全文

posted @ 2020-12-15 12:39 维和战艇机阅读(180) 评论(0) 推荐(0)

概率论与数理统计问题总结

摘要：概率论：为什么样本方差要除以n-1?https://blog.csdn.net/zhoucoolqi/article/details/80380095 证明：(n-1)S^2 / δ^2 服从卡方(n-1) https://blog.csdn.net/xianpingping/article/d 阅读全文

posted @ 2020-12-05 22:25 维和战艇机阅读(429) 评论(0) 推荐(0)

维和战艇机

12 2020 档案

公告