摘要: 策略函数,输入为状态,输出动作a对应的概率。 利用神经网络去近似一个概率函数 softmax函数使概率加和等于1且都为正数。 Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。 状态价值函数V,只与当前状态s有关 将策略函数π替换为神经网络 用梯度上升使策略函数提升 策略梯度算法的推导 阅读全文
posted @ 2023-07-04 12:41 胡子鑫666 阅读(75) 评论(0) 推荐(0)
摘要: 由于动作和状态是随机的,又ut依赖于状态和动作,故ut也是随机的 最佳动作价值函数能给我们作出动作给予指导 我们利用神经网络来近似最佳动作价值函数 利用DQN进行动作价值函数的计算,例如我们可以将图片通过卷积层转换为特征向量, 再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动 阅读全文
posted @ 2023-05-20 15:25 胡子鑫666 阅读(115) 评论(0) 推荐(0)
摘要: state:状态;Action:动作;Agent:主体; 在状态s下主体可以选择自己的动作a。 policy函数π:给出在状态s下作出动作a的概率,策略作出的动作是随机的。 状态转移:在旧状态s1下作出动作a转移到新状态。 转态转移也是随机的,随机性依环境而变。 在状态s下作出动作a转移到s‘的概率 阅读全文
posted @ 2023-05-20 12:34 胡子鑫666 阅读(164) 评论(0) 推荐(0)
摘要: 首先我先介绍关于对java并发的理解:在保证线程安全的情况下 尽可能的利用多核cpu的优势 缩短程序的运行耗时 提高程序的性能; 基本的方法我就不过多涉及了,下面我就讲解一下我自己对并发中各个难点的认识; 这个是知乎某篇关于并发编程的个人图表总结原文章地址 https://zhuanlan.zhih 阅读全文
posted @ 2021-03-13 21:50 胡子鑫666 阅读(98) 评论(0) 推荐(0)