随笔档案「2020年9月」 - 赵代码

马尔科夫决策过程和Bellman方程

摘要：要求： 1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关，而与更早之前的状态无关，在决策过程中还和当前采取的动作有关。马尔科夫决策过程由五个元素组成： S:表示状态集（states） A:表示一组动作（actions） P:表示状态转移概率Psa表示在当前s∈S，阅读全文

posted @ 2020-09-27 16:17 赵代码阅读(615) 评论(0) 推荐(0)

强化学习基本概念

摘要：在强化学习中，有这样几个概念：智能体（Agent）:我们要操控的对象状态（State）:当前智能体在环境中所处状态行为（Action）:当前智能体在当前状态下要进行的下一个动作奖励（Reward）:当智能体进行某一个操作时，对其该操作给出的评价策略（Policy）:为达到目标（最大化奖励）阅读全文

posted @ 2020-09-16 09:47 赵代码阅读(432) 评论(0) 推荐(0)

CGAN-条件生成对抗网络

摘要：CGAN是最基础的GAN模型之一，全称conditional GAN，意为条件生成对抗网络。先说一下GAN和CGAN的区别，最基本的GAN判别器只能判别真假，但无法对生成数据进行控制，即如果有两种以上类别的训练数据，那么GAN的生成器无法指定生成的数据，判别器也无法对真数据+假标签进行判别。为了解阅读全文

posted @ 2020-09-11 10:09 赵代码阅读(5652) 评论(0) 推荐(1)

GAN-生成式对抗网络（keras实现）

摘要：生成式对抗网络（GAN, Generative Adversarial Networks ）是一种深度学习模型，是最近超级火的一个无监督学习方法，它主要由两部分组成，一部分是生成模型G（generator），另一部分是判别模型D（discriminator），它的训练过程可大致描述如下：生成模型通阅读全文

posted @ 2020-09-03 14:12 赵代码阅读(1465) 评论(0) 推荐(0)

赵代码

09 2020 档案

公告