正文内容加载中...
posted @ 2016-01-03 00:59 Poll的笔记 阅读(676) 评论(4) 编辑
摘要: 上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略阅读全文
posted @ 2018-11-02 09:52 Poll的笔记 阅读(376) 评论(1) 编辑
摘要: 为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取阅读全文
posted @ 2018-11-01 09:46 Poll的笔记 阅读(148) 评论(0) 编辑
摘要: 上篇总结了 Model Free Predict 问题及方法,本文内容介绍 Model Free Control 方法,即 "Optimise the value function of an unknown MDP"。 在这里说明下,Model Free Predict/Control 不仅适用于阅读全文
posted @ 2018-10-31 10:40 Poll的笔记 阅读(159) 评论(0) 编辑
摘要: 上篇文章介绍了 Model based 的通用方法——动态规划,本文内容介绍 Model Free 情况下 Prediction 问题,即 "Estimate the value function of an unknown MDP"。 Model based:MDP已知,即转移矩阵和奖赏函数均已知阅读全文
posted @ 2018-10-30 09:37 Poll的笔记 阅读(145) 评论(0) 编辑
摘要: 动态规划 动态规划(Dynamic Programming,简称DP)是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。 动态规划常常适用于具有如下性质的问题: 具有最优子结构(Optimal substructure) Principle of optimality applies阅读全文
posted @ 2018-10-29 09:26 Poll的笔记 阅读(407) 评论(0) 编辑
摘要: 在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性。 情节性任务 vs. 连续任务 情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作为有限步骤的任务。 连续任务(Continuing Tasks),所有的任务不能分解,可以看作为无限阅读全文
posted @ 2018-10-28 10:05 Poll的笔记 阅读(478) 评论(0) 编辑
摘要: 随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视。最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下。 强化学习定义 先借用维基百科上对强化学习的标准定义: 强化学习(Reinforcement Learning,简称RL)是机器学习中的一阅读全文
posted @ 2018-10-27 17:53 Poll的笔记 阅读(420) 评论(0) 编辑
摘要: Cross-entropy Method(简称CEM)虽然是一种基于交叉熵的算法,但并不是我们熟知的监督学习中的交叉熵方法,与其说它是一种基于交叉熵的算法,倒不如说是一种基于蒙特卡洛和进化策略的算法。CEM算法不仅可以用作评估,也可以作为一种有效的优化算法,与进化算法(EAs)类似CEM是一种完全免阅读全文
posted @ 2018-09-01 19:31 Poll的笔记 阅读(804) 评论(0) 编辑
摘要: 在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。 个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可阅读全文
posted @ 2018-06-30 17:01 Poll的笔记 阅读(1868) 评论(0) 编辑
摘要: 深度学习的基本原理是基于人工神经网络,输入信号经过非线性的active function,传入到下一层神经元;再经过下一层神经元的activate,继续往下传递,如此循环往复,直到输出层。正是因为这些active functions的堆砌,深度学习才被赋予了解决非线性问题的能力。当然,仅仅靠acti阅读全文
posted @ 2018-06-26 10:24 Poll的笔记 阅读(937) 评论(1) 编辑
摘要: 了解LR的同学们都知道,LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function,那有个很有意思的问题来了,为什么我们不用更加简单熟悉的最小化平方误差函数(MSE)呢? 我个人理解主要有三个原因: MSE的假设是高斯分布,交叉熵的假设是伯努利分布,而逻辑回归采用的就是伯努利分布;阅读全文
posted @ 2018-06-10 16:52 Poll的笔记 阅读(1259) 评论(0) 编辑
摘要: 好久没有更新blog了,最近抽时间看了Nielsen的《Neural Networks and Deep Learning》感觉小有收获,分享给大家。 了解深度学习的同学可能知道,目前深度学习面临的一个问题就是在网络训练的过程中存在梯度消失问题(vanishing gradient problem)阅读全文
posted @ 2017-01-21 13:29 Poll的笔记 阅读(14480) 评论(2) 编辑
摘要: 简单总结一下机器学习最常见的两个函数,一个是logistic函数,另一个是softmax函数,若有不足之处,希望大家可以帮忙指正。本文首先分别介绍logistic函数和softmax函数的定义和应用,然后针对两者的联系和区别进行了总结。 1. logistic函数 1.1 logistic函数定义 阅读全文
posted @ 2016-07-17 15:28 Poll的笔记 阅读(32591) 评论(2) 编辑
摘要: 目前,深度学习(Deep Learning,简称DL)在算法领域可谓是大红大紫,现在不只是互联网、人工智能,生活中的各大领域都能反映出深度学习引领的巨大变革。要学习深度学习,那么首先要熟悉神经网络(Neural Networks,简称NN)的一些基本概念。当然,这里所说的神经网络不是生物学的神经网络阅读全文
posted @ 2016-06-19 20:31 Poll的笔记 阅读(46439) 评论(7) 编辑
摘要: 1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术,wiki上对这三种阅读全文
posted @ 2016-05-21 18:38 Poll的笔记 阅读(9219) 评论(4) 编辑
摘要: 声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文。 声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文。 写在前面 记得在《Pattern Recognition And Machi阅读全文
posted @ 2016-05-21 15:34 Poll的笔记 阅读(2849) 评论(0) 编辑
摘要: 声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文。 符号定义 声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文。 符号定义 这里定义《深入浅出ML》系列中涉及到的公式符号,如无特殊阅读全文
posted @ 2016-05-15 11:59 Poll的笔记 阅读(4143) 评论(0) 编辑
摘要: 1. 什么是 LCSs? 什么是 LCSs? 好多博友看到这几个字母可能比较困惑,因为这是我自己对两个常见问题的统称,它们分别为最长公共子序列问题(Longest-Common-Subsequence)和最长公共子串(Longest-Common-Substring)问题。这两个问题非常的相似,所以阅读全文
posted @ 2016-05-08 14:50 Poll的笔记 阅读(4124) 评论(1) 编辑
摘要: 深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? 引用三年前一位网友的话来讲: “Steve Renals算了一下icassp录取文章题目中包含de阅读全文
posted @ 2016-04-24 15:27 Poll的笔记 阅读(32065) 评论(6) 编辑
摘要: 考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预阅读全文
posted @ 2016-04-10 20:04 Poll的笔记 阅读(17201) 评论(8) 编辑