会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风和雨滴
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
下一页
2021年11月7日
对batch求算loss时loss是张量形式或是标量有什么不同?
摘要: 一般情况下我们使用一个batch的数据计算出一个平均的loss,再使用这个loss反向传播求得模型参数的梯度并更新,例如: loss = tf.reduce_mean(y - y_pred) # 文中y和y_pred的shape均为:[b, 1],其中b是batch_size. 这种情况比较好理解,
阅读全文
posted @ 2021-11-07 13:51 风和雨滴
阅读(1867)
评论(0)
推荐(1)
2021年11月1日
在tensorflow.keras.layers.Layer自定义层中使用for循环
摘要: 踩坑事项: 一定要将for循环的次数在构建层时就传入__init__(),而不是和inputs一起使用call传入!特别是每轮循环都需要tf.concat()新张量的时候。否则tf构建动态图无法计算循环后数据的维度报错!
阅读全文
posted @ 2021-11-01 17:21 风和雨滴
阅读(268)
评论(0)
推荐(0)
2021年7月30日
多智能体强化学习
摘要: 多智能体的常见设定: 合作关系。比如工业机器人 竞争关系。比如拳击比赛 合作-竞争混合。比如机器人足球比赛 利己主义。比如股票自动交易系统 多智能体系统的术语: 有n个智能体; $S$为状态; $A^i$表示第$i$个智能体的动作; 状态转移: \[ p(s^{\prime} | s,a^1,a^2
阅读全文
posted @ 2021-07-30 23:00 风和雨滴
阅读(951)
评论(0)
推荐(0)
dueling network
摘要: 最优优势函数: \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。 由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$,故$A^(s,a) ⇐ 0$,即$\mathop {max}\l
阅读全文
posted @ 2021-07-30 20:07 风和雨滴
阅读(352)
评论(0)
推荐(0)
DQN高阶技巧
摘要: bootstrapping:左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题:TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估: TD target:\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+
阅读全文
posted @ 2021-07-30 20:00 风和雨滴
阅读(314)
评论(0)
推荐(0)
Experience replay 经验回放
摘要: Experience replay 经验回放 原始TD算法的缺点: 每一个transition用完之后就被舍弃了。 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。 经验回放: 使用replay buffer存储最近的n(105 ~ 1
阅读全文
posted @ 2021-07-30 19:56 风和雨滴
阅读(208)
评论(0)
推荐(0)
TD算法
摘要: TD算法 SARSA算法: SARSA名字由来:SARSA每次用一个五元组来更新动作价值表(Q表):\((s_t,a_t,r_t,s_{t+1},a_{t+1})\),SARSA的每一个字母对应元组里的一个元素。 表格版本。状态和动作都是有限的,以状态为行,动作为列建表,表中的每个元素表示动作价值$
阅读全文
posted @ 2021-07-30 19:49 风和雨滴
阅读(620)
评论(0)
推荐(0)
2021年7月14日
深度强化学习
摘要: value-based,价值学习:DQN。构建一个神经网络,输入是state,有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差,我们使用TD算法,让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1
阅读全文
posted @ 2021-07-14 16:08 风和雨滴
阅读(153)
评论(0)
推荐(0)
强化学习一些基本概念
摘要: 强化学习的三个特征: 闭环:动作决定环境,又依据环境选择动作。 非监督。 当前行动不仅影响短期奖励,也会影响长期奖励。 强化学习的元素: policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。 reward signal:在选择动作时,环境提供数字信号
阅读全文
posted @ 2021-07-14 16:07 风和雨滴
阅读(851)
评论(0)
推荐(0)
2021年2月24日
spark web ui各端口修改
摘要: spark master:默认是8080 修改方式:在sbin目录下编辑start-master.sh文件,修改SPARK_MASTER_WEBUI_PORT=8080 spark worker:默认是8081 修改方式:在sbin目录下编辑start-slave.sh文件,修改SPARK_MAST
阅读全文
posted @ 2021-02-24 20:29 风和雨滴
阅读(3522)
评论(0)
推荐(1)
上一页
1
2
3
4
下一页
公告