09 2020 档案
摘要:要求: 1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关。 马尔科夫决策过程由五个元素组成: S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率Psa表示在当前s∈S,
阅读全文
摘要:在强化学习中,有这样几个概念: 智能体(Agent):我们要操控的对象 状态(State):当前智能体在环境中所处状态 行为(Action):当前智能体在当前状态下要进行的下一个动作 奖励(Reward):当智能体进行某一个操作时,对其该操作给出的评价 策略(Policy):为达到目标(最大化奖励)
阅读全文
摘要:CGAN是最基础的GAN模型之一,全称conditional GAN,意为条件生成对抗网络。 先说一下GAN和CGAN的区别,最基本的GAN判别器只能判别真假,但无法对生成数据进行控制,即如果有两种以上类别的训练数据,那么GAN的生成器无法指定生成的数据,判别器也无法对真数据+假标签进行判别。为了解
阅读全文
摘要:生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是最近超级火的一个无监督学习方法,它主要由两部分组成,一部分是生成模型G(generator),另一部分是判别模型D(discriminator),它的训练过程可大致描述如下: 生成模型通
阅读全文

浙公网安备 33010602011771号