胡子鑫666

2023年7月4日

摘要：策略函数，输入为状态，输出动作a对应的概率。利用神经网络去近似一个概率函数 softmax函数使概率加和等于1且都为正数。 Qπ用来评价在状态s下作出动作a的好坏程度，与策略函数π有关。状态价值函数V，只与当前状态s有关将策略函数π替换为神经网络用梯度上升使策略函数提升策略梯度算法的推导阅读全文

posted @ 2023-07-04 12:41 胡子鑫666 阅读(79) 评论(0) 推荐(0)

2023年5月20日

基于价值的深度强化学习

摘要：由于动作和状态是随机的，又ut依赖于状态和动作，故ut也是随机的最佳动作价值函数能给我们作出动作给予指导我们利用神经网络来近似最佳动作价值函数利用DQN进行动作价值函数的计算，例如我们可以将图片通过卷积层转换为特征向量，再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动阅读全文

posted @ 2023-05-20 15:25 胡子鑫666 阅读(116) 评论(0) 推荐(0)

深度强化学习基本概念

摘要： state：状态；Action：动作；Agent：主体；在状态s下主体可以选择自己的动作a。 policy函数π：给出在状态s下作出动作a的概率，策略作出的动作是随机的。状态转移：在旧状态s1下作出动作a转移到新状态。转态转移也是随机的，随机性依环境而变。在状态s下作出动作a转移到s‘的概率阅读全文

posted @ 2023-05-20 12:34 胡子鑫666 阅读(168) 评论(0) 推荐(0)

2021年3月13日

关与对java并发编程的理解以及其中各个模式的介绍

摘要：首先我先介绍关于对java并发的理解：在保证线程安全的情况下尽可能的利用多核cpu的优势缩短程序的运行耗时提高程序的性能；基本的方法我就不过多涉及了，下面我就讲解一下我自己对并发中各个难点的认识；这个是知乎某篇关于并发编程的个人图表总结原文章地址 https://zhuanlan.zhih 阅读全文

posted @ 2021-03-13 21:50 胡子鑫666 阅读(100) 评论(0) 推荐(0)

公告