文章分类 -  机器学习

摘要:所谓决策,就是要对一件事做出决定,它跟推断的差别在于是否要涉及后果。推断就好比你一个哥们儿唾沫横飞的跟你分析追某妹纸的各种可能性,他会说的头头是道因为纸上谈兵终为易,决策呢,就是你在采取追或者不追的行动时估计所要付出的成本和产生的后果,然后决定到底追不追。在做统计推断时,统计学家都是按照统计理论来进行的,根本不会考虑推断后的结论在使用时产生的效应或者损失。然后在实际情况中,我们使用推断的结果就必然带来效益或者损失,在不同应用中存在着不同的效益函数或者损失函数,这时我们度量一个推断的好坏就可以根据定义的效益函数或者损失函数,我们在实际中一般都会采用带来最大效益或者最小损失的那个推断,这就是决策。 阅读全文
posted @ 2013-06-05 23:43 busyfruit 阅读(1123) 评论(0) 推荐(0)
摘要:马 春娥, 软件工程师, IBM赵 晨婷, 软件工程师, IBM简介:Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎,帮助 Web 应用开发者更高效的实现个性化推荐功能,从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信息过滤(IF,In 阅读全文
posted @ 2013-06-03 21:54 busyfruit 阅读(271) 评论(0) 推荐(0)
摘要:Collaborative Filtering Recommendation向量之间的相似度度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。皮尔森相关系数计算公式如下:分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。因为,所以皮尔森相关系数计算公式还可以写成:当两个变量的线性关系增强时,相关系数趋于1或-1。用户评分预测用户评分预测的基本原理是:step1.如果用户i对项目j没有评过分,就找到与用户i最相似的K个邻居(使用向量相似度度量方法)step2.然后用这K个邻居对项目j的评分的加权平均来预测用户i对项目j的 阅读全文
posted @ 2013-05-22 19:15 busyfruit 阅读(195) 评论(0) 推荐(0)
摘要:基于机器学习的知道推荐—Enlister — trisunEnlister—最大的中文问答网站“百度知道”的问题推荐系统名字。这个由几个百度一线工程师研发的系统,自2012年1月上线以来,承担着百度知道千万级登录用户的问题推荐计算。问题的开始 百度知道这样的问答社区型网站有个典型特点:有些用户在平台上提出问题,这些问题被另一些用户发现,其中有能力且有意愿的人回答了这几个问题。这几个问题 及其解答在平台上沉淀下来,持续给后来有相关问题的搜索用户提供着解答,并激励着更多用户将自己的问题发布在平台上。像这样的系统就是一个自生态系统,有人生产,有人消费(如图1)。若其中一个环节出现问题,都会导致这个. 阅读全文
posted @ 2013-05-22 02:14 busyfruit 阅读(231) 评论(0) 推荐(0)
摘要:作者:陈运文 博士引言Kaggle是创办于美国硅谷的一个近年来风头正劲的数据挖掘竞赛平台,汇集了全球83000多名数据科学家,致力于通过数据挖掘技术解决各种各样 现实的问题。文本挑选了Kaggle上若干个有趣实例,让大家了解如何从海量的、看似模糊而随机的实际应用数据中,挖掘出隐含其中的有巨大价值的信息和知 识,并指导我们的认知和决策的。你的职位该给多少薪酬?薪水的高低恐怕是职场人士们最关心的一个问题了,很多人想知道自己的职位到底在人才市场上值多少钱?而对招聘的企业来说,如果能为各个职位制定合理 的薪酬,则既能招募到渴求的人才,又能有效的控制成本,何乐而不为。来自英国伦敦的数据挖掘公司Adzun 阅读全文
posted @ 2013-05-21 21:56 busyfruit 阅读(749) 评论(0) 推荐(0)
摘要:李航:http://research.microsoft.com/en-us/people/hangli/, 是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的 研究。曾在人大听过一场他的讲座,对实际应用的问题抽象,转化和解决能力值得学习。周志华:http://cs.nju.edu.cn/zhouzh/,是南京大学的杰青,机器学习和数据挖掘方面国内的领军人物,其好几个研究生都进入了美国一流高校如uiuc,cmu等学习和深造。周教授在半监督学习,m 阅读全文
posted @ 2013-05-15 19:44 busyfruit 阅读(220) 评论(0) 推荐(0)
摘要:http://www.guzili.com/?p=79051谷子粒http://www.52nlp.cn/我爱自然语言处理 阅读全文
posted @ 2013-05-08 23:55 busyfruit 阅读(92) 评论(0) 推荐(0)
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1.欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自 阅读全文
posted @ 2013-05-08 23:37 busyfruit 阅读(338) 评论(0) 推荐(0)
摘要:http://blog.socona.me/2013/03/29/dim-reduce-high-dim-clustering.html降维作为目前很多研究领域的重要研究分支之一,其方法本身就多种多样,根据降维方法的不同,产生了很多基于降维的聚类方法,如Kohonen自组织特征映射(self-organizing feature map,SOFM) 、主成分分析(Principle component analysis,PCA) 、多维缩放(Multi-dimensional scaling ,MDS) 等。此外还有一种特殊的降维聚类方法,即基于分形的降维 。Kohonen 自组织特征映射是一 阅读全文
posted @ 2013-05-08 23:28 busyfruit 阅读(10774) 评论(0) 推荐(0)
摘要:原创书写,转载请注明此文出自:http://www.cnblogs.com/xbinworld,http://blog.csdn.net/xbinworldLaplacian Eigenmaps继续写一点经典的降维算法,前面介绍了PCA,LDA,LLE,这里讲一讲Laplacian Eigenmaps。其实不是说每一个算法都比前面的好,而是每一个算法都是从不同角度去看问题,因此解决问题的思路是不一样的。这些降维算法的思想都很简单,却在有些方面很有效。这些方法事实上是后面一些新的算法的思路来源。Laplacian Eigenmaps[1] 看问题的角度和LLE有些相似,也是用局部的角度去构建数据 阅读全文
posted @ 2013-05-08 23:25 busyfruit 阅读(7936) 评论(1) 推荐(0)
摘要:LLE及其改进算法介绍Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, 2000)以及Supervised locally linear embedding (SLLE) (Dick and Robert, 2002) 是最近提出的非线性降维方法,它能够使降维后的数据保持原有拓扑结构。LLE算法可以有图1所示的一个例子来描述。在图1所示中,LLE能成功地将三维非线性数据映射到二维空间中。如果把图1(B)中红颜色和蓝颜色的数据分别看成是分布在三维空间中的两类数据,通过LLE算法降维后,则数据在二维空间中仍能保持相对 阅读全文
posted @ 2013-05-08 23:19 busyfruit 阅读(7324) 评论(0) 推荐(0)
摘要:1.分类和回归树(CART,classification and regression tree) 基于树的方法的思路:把特征空间划分成一系列的矩形区域,然后在每个区域中拟合一个简单的模型(例如:常量)。下图是决策树(decision tree)的一个简单示意:下面分别介绍回归树和分类树。1.1 回归树(regression tree)如何逐步生成回归树?给定(输入、响应)组成的N个观测,如何自动确定分裂变量、分裂点,以及树的结构。第一步:搜索分裂变量和分裂点。假设将空间划分为M个区域,每个区域用对响应建模。在二叉划分中,假设搜索分裂变量j和分裂点s,定义一对半平面:搜索分裂变量j和分裂点s的 阅读全文
posted @ 2013-05-08 23:14 busyfruit 阅读(2601) 评论(0) 推荐(0)
摘要:Linear Discriminant AnalysisLinear Discriminant Analysis (LDA)Introduction to Discriminant AnalysisOriginally developed in 1936 by R.A. Fisher, Discriminant Analysis is a classic method of classification that has stood the test of time. Discriminant analysis often produces models whose accuracy appr 阅读全文
posted @ 2013-04-27 21:12 busyfruit 阅读(374) 评论(0) 推荐(0)
摘要:LDA算法入门一.LDA算法概述:线性判别式分析(LinearDiscriminantAnalysis,LDA), 也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,它是在1996年由 Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维 数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使 用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内 阅读全文
posted @ 2013-04-27 21:09 busyfruit 阅读(265) 评论(0) 推荐(0)
摘要:SIGIR Paper Writing TipsSIGIR Paper Writing Tips by Peter Bailey is licensed under aCreative Commons Attribution-NonCommercial 3.0 Unported License.I wrote this series of short tips and published them individually to myTwitter feedwhile reviewing forACMSIGIR2013. Lots of people wrote nice things abo 阅读全文
posted @ 2013-04-26 22:05 busyfruit 阅读(279) 评论(0) 推荐(0)
摘要:Below is a partial list of papers written by people at Google, organized by category.Algorithms Achieving Anonymity via Clustering in a Metric Space, Gagan Aggarwal, Tomas Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, An Zhu, PODS, 2006 An O(log n) Approximation Ratio fo 阅读全文
posted @ 2013-04-26 13:10 busyfruit 阅读(202) 评论(0) 推荐(0)
摘要:编辑部按:本文转载Yang Can主页中的文章,稍有修改,原文链接请点击此处。作者简介:杨灿,香港科技大学电子与计算机工程系。主页:http://ihome.ust.hk/~eeyang/index.html在港科大拿到PhD,做的是Bioinformatics方面的东西。Bioinformatics这个领域很乱,从业者水平参差不齐,但随着相关技术(比如Microarray, Genotyping)的进步,这个领域一直风风光光。因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical learning)的魅力。 阅读全文
posted @ 2013-04-24 22:57 busyfruit 阅读(286) 评论(0) 推荐(0)
摘要:ICML2012 paper下载地址,感谢丹柯提供: http://icml.cc/2012/papers/个人比较感兴趣的,跟推荐系统相关的几篇文章:1. 在有query的场景下,向用户推荐itemLatent Collaborative RetrievalJason Weston, Chong Wang, Ron Weiss, Adam Berenzweig2. Yan Liu的新作, 通过层次bayesian模型融合topic model和矩阵分解,分析用户隐含喜好,然后做推荐Collaborative Topic Regression with Social Matrix Factor 阅读全文
posted @ 2013-04-24 21:32 busyfruit 阅读(188) 评论(0) 推荐(0)
摘要:Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。3月27日,Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客发布文章,介绍了自己的个性化和推荐系统架构。文章开头,他们指出:要开发出这样的一个软件架构,能够处理海量现有数据、响应用户交互,还要易于尝试新的推荐方法,这可不一点都不容易。接下来,文章贴出了他们的系统框架图,其中的主要组件包括多种机器学习算法。他们这样解释其中的组件和处理过程:对于数据,最简单的方法是存下来,留作后续离线处理,这就是我们用来管理离线作业(Offline jobs)的部分架构。计算可以以离线 阅读全文
posted @ 2013-04-24 21:26 busyfruit 阅读(287) 评论(0) 推荐(0)
摘要:做机器视觉和图像处理方面的研究工作,最重要的两个问题:其一是要把握住国际上最前沿的内容;其二是所作工作要具备很高的实用背景。解决第一个问题的办法就是找出这个方向公认最高成就的几个超级专家(看看他们都在作什么)和最权威的出版物(阅读上面最新的文献),解决第二个问题的办法是你最好能够找到一个实际应用的项目,边做边写文章。 做好这几点的途径之一就是利用网络资源,利用权威网站和专家们的个人主页。依照下面目录整理:[1]研究群体(国际国内)[2]专家主页[3]前沿国际国内期刊与会议[4]搜索资源[5]GPL软件资源一、研究群体用来搜索国际知名计算机视觉研究组(CV Groups):国际计算机视觉研究组清 阅读全文
posted @ 2013-04-15 20:40 busyfruit 阅读(209) 评论(0) 推荐(0)