LincHpin

2019年3月17日

摘要：这篇博客只是为了自己记录，思路比较跳跃。 Policy Gradients 不估计局面的价值，转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为，比如说某些资源有限的游戏，我们不可能一直在某一个地方一直获取资源。更新函数是$\theta_{t+1}=\theta_t 阅读全文

posted @ 2019-03-17 00:33 LincHpin 阅读(147) 评论(0) 推荐(0)

2016年12月18日

Machine Learning Notes Ⅵ

摘要：朴素贝叶斯与神经网络阅读全文

posted @ 2016-12-18 20:26 LincHpin 阅读(149) 评论(0) 推荐(0)

2016年12月4日

Machine Learning Notes Ⅴ

摘要：生成学习算法与贝叶斯平滑阅读全文

posted @ 2016-12-04 21:07 LincHpin 阅读(187) 评论(0) 推荐(0)

Machine Learning Notes Ⅳ

摘要：牛顿方法与广义线性模型阅读全文

posted @ 2016-12-04 20:51 LincHpin 阅读(194) 评论(0) 推荐(0)