随笔分类 -  26.DL

摘要:从今天开始整理强化学习领域的知识,主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇,希望写完后自己的强化学习碎片化知识可以得到融会贯通,也希望可以帮到更多的人,毕竟目前系统的讲解强化学习的中文资料不太多。 第一篇会从强化学习的基本概念讲起,对应Sutto 阅读全文
posted @ 2019-06-23 21:12 qiynet 阅读(417) 评论(0) 推荐(0)
摘要:在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识 阅读全文
posted @ 2019-06-20 17:41 qiynet 阅读(267) 评论(0) 推荐(0)
摘要:本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表 阅读全文
posted @ 2019-05-22 17:06 qiynet 阅读(589) 评论(0) 推荐(0)
摘要:机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等。 监督与无监督区别: 1. 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。 2. 有监督学习的方法就是识别事物, 阅读全文
posted @ 2019-05-14 16:33 qiynet 阅读(7035) 评论(0) 推荐(0)
摘要:在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识 阅读全文
posted @ 2019-05-07 17:15 qiynet 阅读(436) 评论(0) 推荐(0)
摘要:logistic:二分类 softmax:多分类 logistic回归 在 logistic 回归中,我们的训练集由 个已标记的样本构成:。由于 logistic 回归是针对二分类问题的,因此类标记 。 假设函数(hypothesis function): 代价函数(损失函数): 我们的目标是训练模 阅读全文
posted @ 2018-05-21 19:28 qiynet 阅读(277) 评论(0) 推荐(0)

跳至侧栏