会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
胡子鑫666
博客园
首页
新随笔
联系
订阅
管理
2023年7月4日
基于策略的深度强化学习
摘要: 策略函数,输入为状态,输出动作a对应的概率。 利用神经网络去近似一个概率函数 softmax函数使概率加和等于1且都为正数。 Qπ用来评价在状态s下作出动作a的好坏程度,与策略函数π有关。 状态价值函数V,只与当前状态s有关 将策略函数π替换为神经网络 用梯度上升使策略函数提升 策略梯度算法的推导
阅读全文
posted @ 2023-07-04 12:41 胡子鑫666
阅读(75)
评论(0)
推荐(0)
2023年5月20日
基于价值的深度强化学习
摘要: 由于动作和状态是随机的,又ut依赖于状态和动作,故ut也是随机的 最佳动作价值函数能给我们作出动作给予指导 我们利用神经网络来近似最佳动作价值函数 利用DQN进行动作价值函数的计算,例如我们可以将图片通过卷积层转换为特征向量, 再利用全连接层转换为对应的输出向量即为各个动作的打分。通过打分即可选择动
阅读全文
posted @ 2023-05-20 15:25 胡子鑫666
阅读(115)
评论(0)
推荐(0)
深度强化学习 基本概念
摘要: state:状态;Action:动作;Agent:主体; 在状态s下主体可以选择自己的动作a。 policy函数π:给出在状态s下作出动作a的概率,策略作出的动作是随机的。 状态转移:在旧状态s1下作出动作a转移到新状态。 转态转移也是随机的,随机性依环境而变。 在状态s下作出动作a转移到s‘的概率
阅读全文
posted @ 2023-05-20 12:34 胡子鑫666
阅读(164)
评论(0)
推荐(0)
2021年3月13日
关与对java并发编程的理解以及其中各个模式的介绍
摘要: 首先我先介绍关于对java并发的理解:在保证线程安全的情况下 尽可能的利用多核cpu的优势 缩短程序的运行耗时 提高程序的性能; 基本的方法我就不过多涉及了,下面我就讲解一下我自己对并发中各个难点的认识; 这个是知乎某篇关于并发编程的个人图表总结原文章地址 https://zhuanlan.zhih
阅读全文
posted @ 2021-03-13 21:50 胡子鑫666
阅读(98)
评论(0)
推荐(0)
公告