随笔分类 -  机器学习

摘要:Bloom filter 思路 用多个不同hash 来记录,比如遇到一个 love 有4个hash function 映射到4个bit位置,如果所有位置都是1 那么认为之前已经遇到love这个词(有一定错误概率),如果有任何一个位置是0,那么表明love这个词之前没有遇到(100%这样) Count Min Sketch 思路类似。。 考虑一个近似的(允许一定错误)的类似 has... 阅读全文
posted @ 2014-12-04 16:24 阁子 阅读(772) 评论(0) 推荐(0)
摘要:考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量 学习参数 w 存储学习参数 w , 存储特征映射词典 预测截断装载学习参数w,装载特征映射词典 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量 利用用学习参数w 对得到的特征向量 进行 点积 做出预测 Featur... 阅读全文
posted @ 2014-12-04 16:09 阁子 阅读(1273) 评论(0) 推荐(0)
摘要:http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf Loss Function 损失函数可以看做 误差部分(loss term) + 正则化部分(regularization term)... 阅读全文
posted @ 2014-11-08 18:30 阁子 阅读(67150) 评论(0) 推荐(2)
摘要:目标是优化几何边距, 通过函数边距来表示需要限制||w|| = 1 还是优化几何边距,St去掉||w||=1限制转为普通函数边距 更进一步的,可以固定函数边距为1,调节||w||即可 阅读全文
posted @ 2014-11-07 16:07 阁子 阅读(1003) 评论(0) 推荐(0)
摘要:http://videolectures.net/icml09_dasgupta_langford_actl/ 主动学习目的: 尽可能少的标注,获取尽可能好的训练结果 一般来说我们希望我们训练的模型能够对于natural distribution也就是说truly underlying distribution表现最好 对于数据集合的随机抽取标注能够做到这一点,但是... 阅读全文
posted @ 2014-11-01 18:32 阁子 阅读(349) 评论(0) 推荐(0)
摘要:gbdt的最大优点,和决策树一样,高度可解释,最喜欢的分类模型:) #!/usr/bin/env python #coding=gbk # ============================================================================== # \file print-fastreank-tree.py # ... 阅读全文
posted @ 2014-10-04 23:04 阁子 阅读(5029) 评论(0) 推荐(0)
摘要:SVM NG课件1 2014年9月28日 16:39 一个二维空间点的示例 已使用 Microsoft OneNote 2013 创建。 阅读全文
posted @ 2014-09-29 09:38 阁子 阅读(292) 评论(0) 推荐(0)
摘要:回到随机变量传输问题,假设传输中我们不知道具体 分布情况(unknown),我们用一个已知的分布 ,来模拟它,那么在这种情况下如果我们利用 尽可能高效的编码,那么我们平均需要多少额外的信息量来描述x呢。这称为相对熵,或者kl divergence。 利用凸函数的不等式性质(也利用了离散求和推广到连续... 阅读全文
posted @ 2013-10-03 17:52 阁子 阅读(1454) 评论(0) 推荐(0)
摘要:点互信息 Pointwise mutual information(PMI), orpoint mutual information, is a measure of association used ininformation theoryandstatistics. The PMI of a p... 阅读全文
posted @ 2013-10-03 17:49 阁子 阅读(5153) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/rocketfan/archive/2010/09/24/1833839.html 惊讶度 相加关系 不相关 p(x,y)=p(x)p(y) 如果按信息量 不相关应该信息量累加 相加 所以 log h(x) = -log(p(x)) 信息平均而言 H(x... 阅读全文
posted @ 2013-10-03 17:48 阁子 阅读(2861) 评论(0) 推荐(0)
摘要:stanford的NLP课件是一个比较好的总结这里记录下。http://www.stanford.edu/class/cs224n/handouts/fsnlp-em-slides.pdf MLE 又一个不同的应用场景,但是可以看出基本都是mixture… 引入hidden variable让计算变的容易,因为确定了具体哪个part model产生 这个推导看前面的总结 关键词 下面是这个课件独有的,EM made easy 其实作者也是想证明Qfunction怎么获得的,思路和总结2中殊途同归,不过没有用log直接用概率*,利用artithmetic means >= geometri 阅读全文
posted @ 2011-06-18 16:04 阁子 阅读(1006) 评论(0) 推荐(0)
摘要:Andrew Ng 关于EM有两个不错的课件 http://www.stanford.edu/class/cs229/notes/cs229-notes7b.pdf Mixtures of Gaussians and the EM algorithm http://www.stanford.edu/class/cs229/notes/cs229-notes8.pdf The EM algorith... 阅读全文
posted @ 2011-06-18 15:49 阁子 阅读(1741) 评论(0) 推荐(0)
摘要:A Note on the Expectation-Maximization(EM) Algorithm ChengXiang Zhai 的一篇EM算法note。/Files/rocketfan/em-note.pdf 1. 简介 KMEAS算法就是一种EM算法,比如要给所有的点聚类成两组,那么先随机取两个点作为中心,然后将所有点按照距离这两个点的聚类分类到这两个点上,分成两组,然后每个组再计算中... 阅读全文
posted @ 2011-06-18 12:16 阁子 阅读(4530) 评论(6) 推荐(1)
摘要:1. 伯努利分布 现在问题是假如我们考虑抛硬币,如果3次都是head,那么根据伯努利,MLE推断 参数 那么我们会认为每次投掷都会是head,这显然与常识不符, 这里我们如果有一个先验知识就能纠正这个问题(考虑贝叶斯分类器中的0概率事件处理其实也是加一个先验知识而已来进行平滑),那么怎么加入先验知识呢? 这里我们利用贝叶斯法则,我们从原来的 来估算参数,改为后验 也即等价 估算参数。 这里我们希望 有类似的形式。从而引出了beta 分布,注意与(先验)的形式类似,只不过(a,b)变成(m+a, l+b),即我们的先验知识由于实际看到的情况做出来相应调整。 2. Beta分布 注意这里的Bin是 阅读全文
posted @ 2011-03-07 10:50 阁子 阅读(1925) 评论(0) 推荐(0)
摘要:1. 线性拟合问题的迭代解法 batch gradient descent 梯度下降法,每次沿着梯度方向对于参数移动小的距离。 有两种具体实现,一种是每次移动的时候考虑所有的实验点,这种在训练集合较大的时候开销比较大。(如下,每次扫描所有m个试验点) 另外一种是stochastic gradient deseent 扫描每个点的时候就决定了参数的按照该点的梯度进行参数调整。即 每次参数调整只考虑当前一个试验点。这个收敛速度会更快,但是不保证能收敛到最佳,但是如果逐步调小的值可以收敛到最佳。 我个人觉得gradient descent的方法都是依赖起始位置吧,最终都是一个局部最优结果。 2. 矩 阅读全文
posted @ 2011-03-06 10:16 阁子 阅读(2011) 评论(2) 推荐(0)
摘要:简介: 主要参考<<introduction to statistical pattern recognation>>第六章,做简单笔记。 1. 参数化与非参数化 参数化是指我们对于概率预先做出了分布形式假设,我们要做的只是估算参数值,比如我们假定是高斯分布,二项式分布等等。 非参数化直接从观察数据估计概率密度,不依赖任何对分布形式的假设。 2. 如何非参数化估计? 可以采用Parzen密度估计方法。 可以采用KNN方法。 区别是Parzen方法是固定v,不固定k,而KNN方法是固定k,不固定v。 3. 结论 贝叶斯分类器是最小化分类误差的理论上的最优分类器 参数化 阅读全文
posted @ 2010-12-13 17:05 阁子 阅读(1902) 评论(0) 推荐(0)
摘要:1. 简介: 主要是Andrew W.Moore 的课件Predicting real-valued outputs: an introduction to regression学习笔记(逐步完成)。 2. 单一参数线性回归 single parameter linear regression 前面关于PRML第一章学习笔记中已经贴了该部分。注意最后的最优求解很简单,按照偏导数=0。 对应最小... 阅读全文
posted @ 2010-12-12 11:23 阁子 阅读(1224) 评论(0) 推荐(0)
摘要:written by goldenlock 简介: 本文主要对PRML一书的第一章总结,结合moore关于回归的课件Predicting real-valued outputs: an introduction to regression。 什么是回归(regression)? 1. 单一参数线性回归 如上图考虑用一条过原点的直线去拟合采样点,y=wx,那么未知参数w取什么值可以使得拟合最好的,即整体拟合误差最小,这是一个最小二乘法拟合问题。 目标是使得(Xi-Yi)^2的总和最小。 2. 从概率的角度考虑上面的问题 就是说我们假定模型是y=wx但是具体的(Xi,Yi)对应生成的时候按照高斯 阅读全文
posted @ 2010-12-11 22:11 阁子 阅读(5542) 评论(0) 推荐(1)
摘要:PRAML学习笔记-信息论 概述 对<<pattern recognition and machine learning>> 一书关于信息论简介的学习笔记, 对于一个随机变量x,它携带有多少信息量呢? 当我们观察到了x的一个特定值的时候,我们获得了多少信息量呢? 信息量可以表示为“惊讶度”(degree of surprise)。 如果我们观察到了一个不常见的事情发生显然惊讶度高,获得信息量大,极端的如果我们知道一个事件百分百发生那么我们没有任何信息获得。 我们考虑与概率分布p(x)相关联的h(x),表示观测到x值时的信息量,当我们认为x,y无关 阅读全文
posted @ 2010-09-24 13:18 阁子 阅读(2011) 评论(1) 推荐(0)
摘要:Tom M.Mitchell (译pku_goldenlock at qq.com) Abstract 对GENERATIVE AND DISCRIMINATIVE CLASSIFIERS:NAIVE BAYES AND LOGISTIC REGRESSION文章简单翻译(不完整to be finished or not:)请参考原文(很经典),错误难免仅供自己记录。 1 基于贝叶斯规则的分类学习 这里我们会考虑有监督学习(supervised learning),方程拟合(function approximation),以及贝叶斯推理的关系。 考虑一个有监督学习问题,我们想逼近一个方程f:X 阅读全文
posted @ 2010-09-11 17:07 阁子 阅读(10048) 评论(0) 推荐(0)