强化学习1

只是初步涉猎,因为读的论文涉及到了。

学习资料来自于网络,主要是udacity的cs600,佐治亚理工的老师

本来以为第一遍看视频就能完全搞懂了,并没有

还是写随笔好好整理一下

三种学习的类型:有监督,无监督,强化

实际的世界,系统,状态之间的转移由马尔可夫的状态转移概率确定。

States:$ s\ belones\ to\ S$

posted @ 2019-03-14 16:12  zherlock  阅读(103)  评论(0编辑  收藏  举报