python我的最爱

2022年9月12日

摘要： 1.在策略上，在均值为Mu, 标准差为std的标准正态化分布上进行采样, 使用action_bound来获得动作，使用log_prob获得该动作的概率值 dist = Normal(mu, std) normal_sample = dist.rsample() # 在标准化正态分布上采样 log_p 阅读全文

posted @ 2022-09-12 22:34 python我的最爱阅读(1686) 评论(1) 推荐(0) 编辑

强化学习-DDPG

摘要： 1.DDPG是一个离线的策略方法 rl_utils.train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size) 2.DDPG是一个将状态states和actor的输出作为共同的输入阅读全文

posted @ 2022-09-12 16:03 python我的最爱阅读(583) 评论(0) 推荐(0) 编辑

强化学习-PPO

摘要： 1.PPO是采用截断来对动作的输出进行约束，保证相同的状态下，同样的输出 ratio = torch.exp(log_probs - old_log_probs) surr1 = ratio * advantage surr2 = torch.clamp(ratio, 1 - self.eps, 1 阅读全文

posted @ 2022-09-12 10:49 python我的最爱阅读(1180) 评论(0) 推荐(0) 编辑

强化学习-Actor-Critic(演员和评论家)

摘要： 1.Actor-Critic既学习价值函数，也学习策略函数 2.价值函数用来评估当前的状态是好的，还是不好的，进而帮助Actor进行策略更新 actor_loss = torch.mean(-log_probs * td_delta.detach()) # 即由td_delta来调控损失 3.Cri 阅读全文

posted @ 2022-09-12 09:49 python我的最爱阅读(405) 评论(0) 推荐(0) 编辑

2022年9月11日

强化学习-PolicyGrad(策略梯度强化学习)

摘要： 1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值，求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss 阅读全文

posted @ 2022-09-11 16:24 python我的最爱阅读(244) 评论(0) 推荐(0) 编辑

强化学习-DuelingDQN(决斗DQN)

摘要： DuelingDQN的原理是Q的期望汇报，由两个输出决定，一个是Action的价值，还有一个是当前状态的价值即由算法本来来确定当前的状态是否是好的，为了使得当前状态的价格可以更新，即对Action的输出做归一化的限制 A = self.fc_A(F.relu(self.fc1(x))) V = s 阅读全文

posted @ 2022-09-11 16:16 python我的最爱阅读(183) 评论(0) 推荐(0) 编辑

2022年9月4日

强化学习-Double DQN(两个DQN模型)

摘要：对于之前提到的DQN模型, 损失函数使用的 Q(state) = reward + Q(nextState)max Q(state)由训练网络生成, Q(nextState)max由目标网络生成这种损失函数会存在问题，即当Q(nextState)max总是大于0时，那么Q(state)总是在不停的阅读全文

posted @ 2022-09-04 21:41 python我的最爱阅读(951) 评论(0) 推荐(0) 编辑

强化学习-DQN(Deep Q-netword)

摘要： 1.DQN的动作选择策略是epsilon-贪婪策略 (1)当随机值小于阈值时, 使用随机的action (2)当随机值大于阈值时, 使用网络输出的最大Q值的方向 2.DQN的损失函数计算 (1)输入state, 生成最大方向的action (2)将action输入到环境中, 获得next_state 阅读全文

posted @ 2022-09-04 17:29 python我的最爱阅读(637) 评论(0) 推荐(0) 编辑

2022年5月10日

目标检测-Dynamic Head: Unifying Object Detection Heads with Attentions(动态头:将目标检测和注意力统一起来)

摘要：文章主旨: 作者提出了一种将范围感知(scale-aware), 空间感知(Spatial-awareness),Task-awareness(任务感知)相结合的统一模型块，用来提升模型的效果，其中范围感知(scale-aware)可以用来适用不同尺度的目标，其中空间感知(Spatial-aware 阅读全文

posted @ 2022-05-10 00:46 python我的最爱阅读(129) 评论(0) 推荐(0) 编辑

2022年5月5日

CVPR2022(超分领域)-Reflash Dropout in Image Super-Resolution(记起droput在图像超分)

摘要：文章主旨: 在以往的认知中，dropout会导致信息发生损失，不适用于low level的任务中，作者发现dropout平均特征图的重要性，提升通道之间的利用率，从而提升模型的泛化能力, 对此作者进行了一系列的实验证明文章介绍简介 dropout旨在缓解高级视觉中的过拟合问题，但是很少应用在如超阅读全文

posted @ 2022-05-05 23:51 python我的最爱阅读(705) 评论(0) 推荐(0) 编辑