风和雨滴

2021年11月7日

摘要：一般情况下我们使用一个batch的数据计算出一个平均的loss，再使用这个loss反向传播求得模型参数的梯度并更新,例如： loss = tf.reduce_mean(y - y_pred) # 文中y和y_pred的shape均为：[b, 1]，其中b是batch_size. 这种情况比较好理解，阅读全文

posted @ 2021-11-07 13:51 风和雨滴阅读(1867) 评论(0) 推荐(1)

2021年11月1日

在tensorflow.keras.layers.Layer自定义层中使用for循环

摘要：踩坑事项：一定要将for循环的次数在构建层时就传入__init__()，而不是和inputs一起使用call传入！特别是每轮循环都需要tf.concat()新张量的时候。否则tf构建动态图无法计算循环后数据的维度报错！阅读全文

posted @ 2021-11-01 17:21 风和雨滴阅读(268) 评论(0) 推荐(0)

2021年7月30日

多智能体强化学习

摘要：多智能体的常见设定：合作关系。比如工业机器人竞争关系。比如拳击比赛合作-竞争混合。比如机器人足球比赛利己主义。比如股票自动交易系统多智能体系统的术语：有n个智能体； $S$为状态； $A^i$表示第$i$个智能体的动作；状态转移： \[ p(s^{\prime} | s,a^1,a^2 阅读全文

posted @ 2021-07-30 23:00 风和雨滴阅读(951) 评论(0) 推荐(0)

dueling network

摘要：最优优势函数： \[ A^*(s,a) = Q^*(s,a) - V^*(s) \] 其表示的含义是在状态s下动作$a$相对于最优状态价值的优势。由于$V^(s,a) = \mathop {max}\limits_aQ^(s,a)$，故$A^(s,a) ⇐ 0$，即$\mathop {max}\l 阅读全文

posted @ 2021-07-30 20:07 风和雨滴阅读(352) 评论(0) 推荐(0)

DQN高阶技巧

摘要： bootstrapping：左脚踩右脚上升。用一个估算去更新同类的估算。 DQN的高估问题：TD算法导致DQN高估真实的动作价值。以下两个原因导致DQN出现高估： TD target：\(y_t = r_t + \gamma \cdot \mathop {max}\limits_aQ^*(s_{t+ 阅读全文

posted @ 2021-07-30 20:00 风和雨滴阅读(314) 评论(0) 推荐(0)

Experience replay 经验回放

摘要： Experience replay 经验回放原始TD算法的缺点：每一个transition用完之后就被舍弃了。相邻state之间的相关性非常大，这对于训练是有害的，把用于训练的transition之间的顺序打散更利于训练。经验回放：使用replay buffer存储最近的n(105 ~ 1 阅读全文

posted @ 2021-07-30 19:56 风和雨滴阅读(208) 评论(0) 推荐(0)

TD算法

摘要： TD算法 SARSA算法： SARSA名字由来：SARSA每次用一个五元组来更新动作价值表（Q表）：$(s_t,a_t,r_t,s_{t+1},a_{t+1})$，SARSA的每一个字母对应元组里的一个元素。表格版本。状态和动作都是有限的，以状态为行，动作为列建表，表中的每个元素表示动作价值$ 阅读全文

posted @ 2021-07-30 19:49 风和雨滴阅读(620) 评论(0) 推荐(0)

2021年7月14日

深度强化学习

摘要： value-based，价值学习：DQN。构建一个神经网络，输入是state，有多个输出对应采取每个action到最后所能获得的累加奖励Q-value。一开始这个网络估计出来的Q-value很差，我们使用TD算法，让 \[ target = r(a_t|s_t) + \lambda Q(s_{t+1 阅读全文

posted @ 2021-07-14 16:08 风和雨滴阅读(153) 评论(0) 推荐(0)

强化学习一些基本概念

摘要：强化学习的三个特征：闭环：动作决定环境，又依据环境选择动作。非监督。当前行动不仅影响短期奖励，也会影响长期奖励。强化学习的元素： policy：$\pi (a|s)$，policy决定了在特定state下将会选择的action。 reward signal：在选择动作时，环境提供数字信号阅读全文

posted @ 2021-07-14 16:07 风和雨滴阅读(851) 评论(0) 推荐(0)

2021年2月24日

spark web ui各端口修改

摘要： spark master：默认是8080 修改方式：在sbin目录下编辑start-master.sh文件，修改SPARK_MASTER_WEBUI_PORT=8080 spark worker：默认是8081 修改方式：在sbin目录下编辑start-slave.sh文件，修改SPARK_MAST 阅读全文

posted @ 2021-02-24 20:29 风和雨滴阅读(3522) 评论(0) 推荐(1)

公告