随笔分类 -  IR,Rcs

1
摘要:WHY对于google检索,有时需要技巧会得到更好的检索结果,不用简单输入关键字检索后,一个个去浏览。对于这些技巧,基本都知道,但是如果不经常用,总是忘了,又得重新搜索下具体使用方法,这里就把它放到自己的博文中,以后方便直接使用。正文前言:多数人在使用Google搜索的过程是非常低效和无谓的,如果你... 阅读全文
posted @ 2014-06-07 22:50 ywl925 阅读(362) 评论(0) 推荐(0) 编辑
摘要:以前读了Yehuda Koren和Ma Hao的论文,感觉非常不错,这里分享一下。如果想着具体了解他们近期发的论文,可以去DBLP去看看。Yehuda Koren也是Netflix Prize的冠军队成员,是推荐系统领域的大神级人物。1、《Matrix Factorization Techniques For Recommender Systems》2、《Factorization Meets the Neighborhood:a Multifaceted Collaborative Filtering Model》3、《Adaptive Bootstrapping of Recommende 阅读全文
posted @ 2014-03-12 15:29 ywl925 阅读(1497) 评论(1) 推荐(0) 编辑
摘要:前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。1 LSA and SVDLSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档 阅读全文
posted @ 2014-02-17 16:43 ywl925 阅读(11629) 评论(1) 推荐(1) 编辑
摘要:协同过滤(collaborative filtering,CF)算法主要分为memory-based CF 和 model-based CF,而memory-based CF 包括user-based CF和item-based CF。基于用户的(User-based)协同过滤算法基于用户的(User-based)协同过滤算法是根据邻居用户的偏好信息产生对目标用户的推荐。它基于这样一个假设:如果一些用户对某一类项目的打分比较接近,则他们对其它类项目的打分也比较接近(相似用户对某一item的打分相似,即先计算用户相似性,然后找到对item i 预测过的用户,找到最相似top-k个用户,然后预测) 阅读全文
posted @ 2014-02-12 11:05 ywl925 阅读(7351) 评论(0) 推荐(0) 编辑
摘要:在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 阅读全文
posted @ 2014-02-12 10:06 ywl925 阅读(1642) 评论(0) 推荐(0) 编辑
摘要:距离本意就是两个目标的某一特征集从一个变成另一个需要的最小操作。广泛使用于相似度比较领域。机器学习中经常用的距离有:1. 欧氏距离 (Euclidean Distances)2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦( Cosine Dis... 阅读全文
posted @ 2013-12-30 16:41 ywl925 阅读(8888) 评论(0) 推荐(0) 编辑
摘要:分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive) 阅读全文
posted @ 2013-10-24 21:53 ywl925 阅读(1461) 评论(0) 推荐(0) 编辑
摘要:其实,我感觉,tf-idf是特殊情况下的BM25。BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM2... 阅读全文
posted @ 2013-09-12 10:48 ywl925 阅读(2077) 评论(0) 推荐(0) 编辑
摘要:TF-IDF前言前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。TF-IDF理解TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF 阅读全文
posted @ 2013-08-26 15:20 ywl925 阅读(28304) 评论(10) 推荐(2) 编辑
摘要:Precision & Recall先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很 阅读全文
posted @ 2013-08-17 10:55 ywl925 阅读(5631) 评论(1) 推荐(1) 编辑
摘要:MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0 阅读全文
posted @ 2013-08-16 15:21 ywl925 阅读(11496) 评论(0) 推荐(0) 编辑
摘要:LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子,直接引用:Suppose you have the following set of sentences:I like to eat broccoli and bananas.I ate a banana and spinach smoothie for breakfast.Chinchillas and kittens are cute.My sister adopted 阅读全文
posted @ 2013-05-17 21:41 ywl925 阅读(886) 评论(0) 推荐(0) 编辑
摘要:Topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet allocation) ,其它的topic model大都充分利用了LDA的思想去设计,所以下面先简单地描述一下其生成一个文档集合过程:Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行 阅读全文
posted @ 2013-05-17 21:25 ywl925 阅读(1391) 评论(0) 推荐(0) 编辑
摘要:部分转自:转自点点实验室推荐系统相关资源汇总为了更好的学习推荐系统,本博文将个人知道的关于推荐系统的相关资源整理汇总,拿出来与大家分享。本博文每月更新一次,长期维护,如果你有好的关于推荐系统的资源,请email我,放到这里与大家分享。主页GroupLens:http://www.grouplens.orgGroupLens项目官方主页John Riedl:http://www-users.cs.umn.edu/~riedl/Grouplens领导者Greg Linden—推荐系统领域最有影响力的博客;谷文栋:http://www.guwendong.comResysChina 发起人;Xlve 阅读全文
posted @ 2013-05-12 20:46 ywl925 阅读(821) 评论(0) 推荐(0) 编辑
摘要:矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多种因素的综合作用,往往需要构造cost function来将矩阵分解问题转化为优化问题,根据要考虑的因素为优化问题添加constraints,然后通过迭代的方法进行矩阵分解,原来评分矩阵中的missing vlaue可以通过分解后得到的矩阵求的。本文将简单介绍下最近学习到的矩阵分解方法。(1)PureSvd怎么评价这种方法呢?开始觉得这种方法很神奇很数学,而且在实际使用的时候也非常好用。但最近读了Yehuda大神的pap 阅读全文
posted @ 2013-04-23 17:07 ywl925 阅读(864) 评论(3) 推荐(1) 编辑
摘要:时间总是不够用,这里就不自己写了,摘自一篇转发的博客,感觉挺有用!一个大牛写的介绍,貌似需FQhttp://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/David M.Blei主页:http://www.cs.princeton.edu/~blei/publications.html,上面有布雷最新的文章:Introduction to probabilistic topic models以下内容来自网络,但是作者已经不可考啦,抱歉没法找到原始引用关于LDA并行化:那么若利用MapRe 阅读全文
posted @ 2013-04-09 10:46 ywl925 阅读(515) 评论(0) 推荐(0) 编辑
摘要:1. Pearson相关http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficientPearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。例7-1 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见表7.6,试 阅读全文
posted @ 2013-04-01 16:25 ywl925 阅读(5471) 评论(0) 推荐(0) 编辑
摘要:建立索引目前主流的索引技术有三种:倒排文件、后缀数组和签名。后缀数组的方法虽然快,但是其维护困难,代价相当高,不适合做引擎的索引。签名是一种很好的索引方式,但倒排文件的速度和性能已经超过了签名。倒排文件是一种在各大搜索引擎中被主要使用的索引的方式,并且它也是搜索引擎中一个核心的技术。5.2.1 倒排文件索引(Inverted File Index)的建立倒排索引文件是一种面向单词的索引机制,每个文件都可以用一系列关键字来表示。一个典型的倒排索引主要由词汇表(也叫索引项)和事件表(也叫文件链表)两部分组成。词汇表是用来存放分词词典的,通常称存放词汇表的文件为索引文件;事件表是用来存放这个文件中对 阅读全文
posted @ 2012-12-10 19:41 ywl925 阅读(5985) 评论(1) 推荐(4) 编辑
摘要:衡量搜索引擎质量指标(DCG -- Discounted Cumulative Gain) DCG的英文全称是Discounted cumulative gain,它是一个衡量搜索引擎算法的指标。 搜索引擎一般采用PI(peritem)的方式进行评测,简单地说就是逐条对搜索结果进行分等级的打分。假设我们现在在Google上搜索一个词,然后得到5个结果。我们对这些结果进行3个等级的区分:Good(好)、Fair(一般)、Bad(差),然后赋予他们分值分别为3、2、1,假定通过逐条打分后,得到这5个结果的分值分别为3、2 、1 、3、 2。 接下来我们来看看是怎么计算DCG的 使用DCG这... 阅读全文
posted @ 2012-11-21 15:53 ywl925 阅读(10633) 评论(0) 推荐(1) 编辑
摘要:个性化推荐很多读者都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!实际上,信息服务经历了两次理念上的变革,第一次是从总体到群体,第二次是从群体到个体。第二次变革正在进行中,所要用到的核心技术就是这篇文章要讨论的个性化推荐技术。 还有读者觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它... 阅读全文
posted @ 2012-11-21 15:34 ywl925 阅读(1779) 评论(0) 推荐(0) 编辑

1
Copyright at 2012 yangwenlong