12 2020 档案

摘要:本章节以多臂赌博机为模型,介绍了若干个在简化环境下的强化学习算法(动作不会影响下一时刻的情景和收益) 1、贪心算法,每次选择期望收益最大的动作 2、ξ-贪心,在贪心算法的基础上,有ξ的概率从所有的动作中等概率选择一个。ξ如果比较大可以更快的找到收益最大的动作,但是会影响选择选择收益最大动作的概率(ξ 阅读全文
posted @ 2020-12-29 20:42 维和战艇机 阅读(125) 评论(0) 推荐(0)
摘要:强化学习与常见机器学习方法的区别: 1、有监督学习: 有监督学习是从外部监督者提供的带标注的训练集当中进行学习,这种学习方式是为了让系统具有推断或泛华的能力。 2、无监督学习: 无监督学习是一个典型的寻找未标注的数据中的隐含结构的问题。 3、强化学习: 强化学习是一种对目标导向的学习与决策进行理解和 阅读全文
posted @ 2020-12-28 18:00 维和战艇机 阅读(312) 评论(0) 推荐(0)
摘要:二元函数极值判定方法证明:https://wenku.baidu.com/view/180ec113cc7931b765ce157c.html 阅读全文
posted @ 2020-12-15 12:39 维和战艇机 阅读(180) 评论(0) 推荐(0)
摘要:概率论: 为什么样本方差要除以n-1?https://blog.csdn.net/zhoucoolqi/article/details/80380095 证明:(n-1)S^2 / δ^2 服从 卡方(n-1) https://blog.csdn.net/xianpingping/article/d 阅读全文
posted @ 2020-12-05 22:25 维和战艇机 阅读(429) 评论(0) 推荐(0)