Poll的笔记

[置顶] 博客目录

摘要：博主感兴趣的领域主要为机器学习，数据挖掘以及深度学习算法及相关应用，了解并接触过的具体业务场景有搜索引擎、推荐系统、社交网络分析以及计算广告学。 0. 推荐读书列表本站博客大体分为如下几个部分： 1. 算法强化学习系列： [Reinforcement Learning] 强化学习介绍 [Rein 阅读全文

posted @ 2016-01-03 00:59 Poll的笔记阅读(1496) 评论(4) 推荐(4) 编辑

2018年11月2日

[Reinforcement Learning] Policy Gradient Methods

摘要：上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法： $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略阅读全文

posted @ 2018-11-02 09:52 Poll的笔记阅读(6442) 评论(3) 推荐(1) 编辑

2018年11月1日

[Reinforcement Learning] Value Function Approximation

摘要：为什么需要值函数近似？之前我们提到过各种计算值函数的方法，比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数；对于 MDP 未知的情况，可以通过 MC 以及 TD 方法来获得值函数，为什么需要再进行值函数近似呢？其实到目前为止，我们介绍的值函数计算方法都是通过查表的方式获取阅读全文

posted @ 2018-11-01 09:46 Poll的笔记阅读(1959) 评论(0) 推荐(0) 编辑

2018年10月31日

[Reinforcement Learning] Model-Free Control

摘要：上篇总结了 Model Free Predict 问题及方法，本文内容介绍 Model Free Control 方法，即 "Optimise the value function of an unknown MDP"。在这里说明下，Model Free Predict/Control 不仅适用于阅读全文

posted @ 2018-10-31 10:40 Poll的笔记阅读(2388) 评论(2) 推荐(0) 编辑

2018年10月30日

[Reinforcement Learning] Model-Free Prediction

摘要：上篇文章介绍了 Model based 的通用方法——动态规划，本文内容介绍 Model Free 情况下 Prediction 问题，即 "Estimate the value function of an unknown MDP"。 Model based：MDP已知，即转移矩阵和奖赏函数均已知阅读全文

posted @ 2018-10-30 09:37 Poll的笔记阅读(1968) 评论(1) 推荐(2) 编辑

2018年10月29日

[Reinforcement Learning] 动态规划(Planning)

摘要：动态规划动态规划（Dynamic Programming，简称DP）是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于具有如下性质的问题：具有最优子结构（Optimal substructure） Principle of optimality applies 阅读全文

posted @ 2018-10-29 09:26 Poll的笔记阅读(5374) 评论(0) 推荐(1) 编辑

2018年10月28日

[Reinforcement Learning] 马尔可夫决策过程

摘要：在介绍马尔可夫决策过程之前，我们先介绍下情节性任务和连续性任务以及马尔可夫性。情节性任务 vs. 连续任务情节性任务（Episodic Tasks），所有的任务可以被可以分解成一系列情节，可以看作为有限步骤的任务。连续任务（Continuing Tasks），所有的任务不能分解，可以看作为无限阅读全文

posted @ 2018-10-28 10:05 Poll的笔记阅读(9460) 评论(0) 推荐(3) 编辑

2018年10月27日

[Reinforcement Learning] 强化学习介绍

摘要：随着AlphaGo和AlphaZero的出现，强化学习相关算法在这几年引起了学术界和工业界的重视。最近也翻了很多强化学习的资料，有时间了还是得自己动脑筋整理一下。强化学习定义先借用维基百科上对强化学习的标准定义：强化学习（Reinforcement Learning，简称RL）是机器学习中的一阅读全文

posted @ 2018-10-27 17:53 Poll的笔记阅读(7852) 评论(1) 推荐(3) 编辑

2018年9月1日

[Reinforcement Learning] Cross-entropy Method

摘要： Cross-entropy Method（简称CEM）虽然是一种基于交叉熵的算法，但并不是我们熟知的监督学习中的交叉熵方法，与其说它是一种基于交叉熵的算法，倒不如说是一种基于蒙特卡洛和进化策略的算法。CEM算法不仅可以用作评估，也可以作为一种有效的优化算法，与进化算法（EAs）类似CEM是一种完全免阅读全文

posted @ 2018-09-01 19:31 Poll的笔记阅读(5429) 评论(0) 推荐(2) 编辑

2018年6月30日

[Deep Learning] 正则化

摘要：在总结正则化（Regularization）之前，我们先谈一谈正则化是什么，为什么要正则化。个人认为正则化这个字眼有点太过抽象和宽泛，其实正则化的本质很简单，就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化，很多同学可阅读全文

posted @ 2018-06-30 17:01 Poll的笔记阅读(10271) 评论(0) 推荐(14) 编辑

2018年6月26日

[Deep Learning] 常用的Active functions & Optimizers

摘要：深度学习的基本原理是基于人工神经网络，输入信号经过非线性的active function，传入到下一层神经元；再经过下一层神经元的activate，继续往下传递，如此循环往复，直到输出层。正是因为这些active functions的堆砌，深度学习才被赋予了解决非线性问题的能力。当然，仅仅靠acti 阅读全文

posted @ 2018-06-26 10:24 Poll的笔记阅读(4809) 评论(2) 推荐(6) 编辑

2018年6月10日

[Machine Learning] 浅谈LR算法的Cost Function

摘要：了解LR的同学们都知道，LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function，那有个很有意思的问题来了，为什么我们不用更加简单熟悉的最小化平方误差函数（MSE）呢？我个人理解主要有三个原因： MSE的假设是高斯分布，交叉熵的假设是伯努利分布，而逻辑回归采用的就是伯努利分布；阅读全文

posted @ 2018-06-10 16:52 Poll的笔记阅读(4650) 评论(0) 推荐(2) 编辑

2017年1月21日

[Deep Learning] 深度学习中消失的梯度

摘要：好久没有更新blog了，最近抽时间看了Nielsen的《Neural Networks and Deep Learning》感觉小有收获，分享给大家。了解深度学习的同学可能知道，目前深度学习面临的一个问题就是在网络训练的过程中存在梯度消失问题（vanishing gradient problem）阅读全文

posted @ 2017-01-21 13:29 Poll的笔记阅读(18965) 评论(2) 推荐(14) 编辑

2016年7月17日

[Machine Learning] logistic函数和softmax函数

摘要：简单总结一下机器学习最常见的两个函数，一个是logistic函数，另一个是softmax函数，若有不足之处，希望大家可以帮忙指正。本文首先分别介绍logistic函数和softmax函数的定义和应用，然后针对两者的联系和区别进行了总结。 1. logistic函数 1.1 logistic函数定义阅读全文

posted @ 2016-07-17 15:28 Poll的笔记阅读(43400) 评论(2) 推荐(10) 编辑

2016年6月19日

[Deep Learning] 神经网络基础

摘要：目前，深度学习（Deep Learning，简称DL）在算法领域可谓是大红大紫，现在不只是互联网、人工智能，生活中的各大领域都能反映出深度学习引领的巨大变革。要学习深度学习，那么首先要熟悉神经网络（Neural Networks，简称NN）的一些基本概念。当然，这里所说的神经网络不是生物学的神经网络阅读全文

posted @ 2016-06-19 20:31 Poll的笔记阅读(110640) 评论(9) 推荐(148) 编辑

2016年5月21日

[Machine Learning] Active Learning

摘要： 1. 写在前面在机器学习(Machine learning)领域，监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多，应用比较广的学习技术，wiki上对这三种阅读全文

posted @ 2016-05-21 18:38 Poll的笔记阅读(14363) 评论(4) 推荐(4) 编辑

[Machine Learning & Algorithm]CAML机器学习系列2：深入浅出ML之Entropy-Based家族

摘要：声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。写在前面记得在《Pattern Recognition And Machi 阅读全文

posted @ 2016-05-21 15:34 Poll的笔记阅读(3876) 评论(0) 推荐(6) 编辑

2016年5月15日

[Machine Learning & Algorithm]CAML机器学习系列1：深入浅出ML之Regression家族

摘要：声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。符号定义声明：本博客整理自博友@zhouyong计算广告与机器学习－技术共享平台，尊重原创，欢迎感兴趣的博友查看原文。符号定义这里定义《深入浅出ML》系列中涉及到的公式符号，如无特殊阅读全文

posted @ 2016-05-15 11:59 Poll的笔记阅读(5198) 评论(0) 推荐(2) 编辑

2016年5月8日

[Data Structure] LCSs——最长公共子序列和最长公共子串

摘要： 1. 什么是 LCSs？什么是 LCSs? 好多博友看到这几个字母可能比较困惑，因为这是我自己对两个常见问题的统称，它们分别为最长公共子序列问题（Longest-Common-Subsequence）和最长公共子串（Longest-Common-Substring）问题。这两个问题非常的相似，所以阅读全文

posted @ 2016-05-08 14:50 Poll的笔记阅读(9579) 评论(1) 推荐(2) 编辑

2016年4月24日

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

摘要：深度学习掀开了机器学习的新篇章，目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法，那为什么深度学习在语义分析领域仍然没有实质性的进展呢？引用三年前一位网友的话来讲： “Steve Renals算了一下icassp录取文章题目中包含de 阅读全文

posted @ 2016-04-24 15:27 Poll的笔记阅读(43032) 评论(8) 推荐(17) 编辑

2016年4月10日

[Algorithm] 机器学习算法常用指标总结

摘要：考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预阅读全文

posted @ 2016-04-10 20:04 Poll的笔记阅读(30436) 评论(9) 推荐(15) 编辑

[三叶草精神] what hurts more,the pain of hard work or the pain of regret?

公告