随笔分类 -  Machine Learning

1
摘要:最近看一些文档,看见了互信息的使用,第一次接触互信息,感觉和专业有些相关,就把它记录下来,下面是一片不错的文章。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。平均互信息量定义:互信息量I(xi;yj)在联合概率空间P(XY)中的统... 阅读全文
posted @ 2014-05-19 10:08 ywl925 阅读(6075) 评论(0) 推荐(0) 编辑
摘要:以前读了Yehuda Koren和Ma Hao的论文,感觉非常不错,这里分享一下。如果想着具体了解他们近期发的论文,可以去DBLP去看看。Yehuda Koren也是Netflix Prize的冠军队成员,是推荐系统领域的大神级人物。1、《Matrix Factorization Techniques For Recommender Systems》2、《Factorization Meets the Neighborhood:a Multifaceted Collaborative Filtering Model》3、《Adaptive Bootstrapping of Recommende 阅读全文
posted @ 2014-03-12 15:29 ywl925 阅读(1497) 评论(1) 推荐(0) 编辑
摘要:KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q)表示KL距离,计算公式如下:当两个概率分布完全相同时,即P(x)=Q(X),其相对熵为0 。我们知道,概率分布P(X)的信息熵为:其表示,概率分布P(x)编码时,平均每个基本事件(符号)至少需要多少比特编码。通过信息熵的学习,我们 阅读全文
posted @ 2014-02-18 16:40 ywl925 阅读(31815) 评论(0) 推荐(3) 编辑
摘要:前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。1 LSA and SVDLSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档 阅读全文
posted @ 2014-02-17 16:43 ywl925 阅读(11629) 评论(1) 推荐(1) 编辑
摘要:协同过滤(collaborative filtering,CF)算法主要分为memory-based CF 和 model-based CF,而memory-based CF 包括user-based CF和item-based CF。基于用户的(User-based)协同过滤算法基于用户的(User-based)协同过滤算法是根据邻居用户的偏好信息产生对目标用户的推荐。它基于这样一个假设:如果一些用户对某一类项目的打分比较接近,则他们对其它类项目的打分也比较接近(相似用户对某一item的打分相似,即先计算用户相似性,然后找到对item i 预测过的用户,找到最相似top-k个用户,然后预测) 阅读全文
posted @ 2014-02-12 11:05 ywl925 阅读(7351) 评论(0) 推荐(0) 编辑
摘要:在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 阅读全文
posted @ 2014-02-12 10:06 ywl925 阅读(1642) 评论(0) 推荐(0) 编辑
摘要:矩阵的迹(trace)X∈P(n×n),X=(xii)的主对角线上的所有元素之和称之为X的迹,记为tr(X),即tr(X)=∑xii性质:(1)设有N阶矩阵A,那么矩阵A的迹(用tr(A)表示)就等于A的特征值的总和,也即A矩阵的主对角线元素的总和。1.迹是所有对角元的和2.迹是所有特征值的和3.某... 阅读全文
posted @ 2013-12-09 11:14 ywl925 阅读(13320) 评论(0) 推荐(0) 编辑
摘要:JournalsACM TKDDhttp://tkdd.cs.uiuc.edu/DMKDhttp://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDEhttp://www.ieee.org/organizations/pubs/transactions/tkde.htmACM TODShttp://www.acm.org/tods/VLDB Journalhttp://www.vldb.org/ACM Toishttp://www.acm.org/pubs/t 阅读全文
posted @ 2013-11-27 21:16 ywl925 阅读(2246) 评论(0) 推荐(0) 编辑
摘要:接上文:贝叶斯推断及其互联网应用(一):定理简介七、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习的功能 阅读全文
posted @ 2013-10-25 10:56 ywl925 阅读(705) 评论(0) 推荐(0) 编辑
摘要:一、什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多 阅读全文
posted @ 2013-10-25 10:52 ywl925 阅读(677) 评论(0) 推荐(0) 编辑
摘要:分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive) 阅读全文
posted @ 2013-10-24 21:53 ywl925 阅读(1461) 评论(0) 推荐(0) 编辑
摘要:其实,我感觉,tf-idf是特殊情况下的BM25。BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM2... 阅读全文
posted @ 2013-09-12 10:48 ywl925 阅读(2077) 评论(0) 推荐(0) 编辑
摘要:著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想――非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。该论文的发表迅速引起了各个领域中的科学研究人员的重视:一方面,科学研究中的很多大规模数据的分析方法需要通过矩阵形式进行有效处理,而NMF思想则为人类处理大规模数据提供了一种新的途径;另一方面,NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释. 阅读全文
posted @ 2013-09-11 21:56 ywl925 阅读(8441) 评论(0) 推荐(0) 编辑
摘要:Precision & Recall先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很 阅读全文
posted @ 2013-08-17 10:55 ywl925 阅读(5631) 评论(1) 推荐(1) 编辑
摘要:MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0 阅读全文
posted @ 2013-08-16 15:21 ywl925 阅读(11496) 评论(0) 推荐(0) 编辑
摘要:1. 随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。随机模拟与计算机现代的统计模拟方法最早由数学家乌拉姆提出,被Metropolis命名为蒙特卡罗方法,蒙特卡罗是著名的赌场,赌博总是和统计密切关联的,所以这个命名风趣而贴切,很快被大家广泛接受。被. 阅读全文
posted @ 2013-06-05 14:31 ywl925 阅读(42235) 评论(3) 推荐(1) 编辑
摘要:时间总是不够用,这里就不自己写了,摘自一篇转发的博客,感觉挺有用!一个大牛写的介绍,貌似需FQhttp://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/David M.Blei主页:http://www.cs.princeton.edu/~blei/publications.html,上面有布雷最新的文章:Introduction to probabilistic topic models以下内容来自网络,但是作者已经不可考啦,抱歉没法找到原始引用关于LDA并行化:那么若利用MapRe 阅读全文
posted @ 2013-04-09 10:46 ywl925 阅读(515) 评论(0) 推荐(0) 编辑
摘要:The Dirichlet Distribution 狄利克雷分布可参考http://www.xperseverance.net/blogs/2012/03/510/Probability Distributions(Beta分布,多项式分布和高斯分布)可参考:http://www.xperseverance.net/blogs/2012/03/21/函数,也叫做伽玛函数(Gamma函数),是阶乘函数在实数与复数上的扩展。对于实数部份为正的复数z,伽玛函数定义为:此定义可以用解析开拓原理拓展到整个复数域上,非正整数除外。函数的递推公式为:,对于正整数,有,可以说函数是阶乘的推广。来自wiki的 阅读全文
posted @ 2013-03-19 15:08 ywl925 阅读(252) 评论(0) 推荐(0) 编辑
摘要:关于Gibbs sampling, 首先看一下Wiki上的解释:Gibbs samplingorGibbs sampleris analgorithmto generate a sequence of samples from the joint probability distribution of two or morerandom variables. The purpose of such a sequence is to approximate the joint distribution, or to compute anintegral(such as anexpected va 阅读全文
posted @ 2013-03-19 14:25 ywl925 阅读(414) 评论(0) 推荐(0) 编辑
摘要:判别模型和生成模型,总是混淆,找到个解释不错的http://freemind.pluskid.org/machine-learning/discriminative-modeling-vs-generative-modeling/ Ng, A. Y., & Jordan, M. I. (2001). On Discriminative vs.Generative Classifiers: A comparison of logistic regression and naive Bayes. InNIPS(841-848). 阅读全文
posted @ 2013-03-12 13:22 ywl925 阅读(417) 评论(0) 推荐(0) 编辑

1
Copyright at 2012 yangwenlong