DianaCody - 博客园

2015年1月19日

摘要：本博客部分文章迁移至我的个人网站，新站点http://www.dianacody.com，网站将持续关注Search Engine, Machine Learning, NLP相关领域。欢迎访问。阅读全文

posted @ 2015-01-19 22:10 DianaCody 阅读(167) 评论(0) 推荐(0) 编辑

2014年11月9日

摘要：一、中文分词词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分，或者二元切分... 阅读全文

posted @ 2014-11-09 15:28 DianaCody 阅读(2749) 评论(0) 推荐(0) 编辑

【机器学习】EM最大期望算法

摘要： EM, ExpectationMaximization Algorithm, 期望最大化算法。一种迭代算法，用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计，其概率模型依赖于无法观测的隐变量。经常用在ML与计算机视... 阅读全文

posted @ 2014-11-09 13:56 DianaCody 阅读(1157) 评论(0) 推荐(0) 编辑

2014年11月4日

【机器学习】主题模型（二）：pLSA和LDA

摘要： -----pLSA概率潜在语义分析、LDA潜在狄瑞雷克模型一、pLSA（概率潜在语义分析） pLSA: -------有过拟合问题，就是求D, Z, W pLSA由LSA发展过来，而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下：公式中的意义如下：... 阅读全文

posted @ 2014-11-04 14:47 DianaCody 阅读(1082) 评论(0) 推荐(0) 编辑

【机器学习】主题模型（一）：条件概率、矩阵分解

摘要：两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法，其克服传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。关键词：主题模型技术... 阅读全文

posted @ 2014-11-04 09:24 DianaCody 阅读(1152) 评论(0) 推荐(0) 编辑

【机器学习】推荐系统、SVD分解降维

摘要：推荐系统： 1.基于内容的实现：KNN等 2.基于协同滤波(CF)实现：SVD → pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT SVD算是比较老的方法，后期演进的主题模型主要是pLSA和LDA。pLSA主要基于EM最大期望算法，而LDA主要基于Gibbs抽样算法... 阅读全文

posted @ 2014-11-04 09:18 DianaCody 阅读(8280) 评论(0) 推荐(0) 编辑

【机器学习】关联规则挖掘（二）：频繁模式树FP-growth

摘要： Apriori算法的一个主要瓶颈在于，为了获得较长的频繁模式，需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前，在数据挖掘领域，Apriori和FP-Growth算法的引用次数均位列三甲。 FP的全称是Freque... 阅读全文

posted @ 2014-11-04 09:12 DianaCody 阅读(3879) 评论(0) 推荐(0) 编辑

2014年11月3日

【机器学习】关联规则分析（一）：Apriori

摘要：一、Apriori原理 Apriori是关联分析中较早的一种方法，主要用来挖掘那些频繁项集合，其思想是： 1.如果一个项目集合不是频繁集合，那么任何包含它的项目（超集）也一定不是频繁集。 2.如果一个项目集合是频繁集合，那么它的任何非空子集（子集）也是频繁集合。二、关联分析... 阅读全文

posted @ 2014-11-03 20:40 DianaCody 阅读(611) 评论(0) 推荐(0) 编辑

【机器学习】聚类算法——K均值算法（k-means）

摘要：一、聚类 1.基于划分的聚类：k-means、k-medoids(每个类别找一个样本来代表)、Clarans 2.基于层次的聚类：(1)自底向上的凝聚方法，比如Agnes (2)自上而下的分裂方法... 阅读全文

posted @ 2014-11-03 08:49 DianaCody 阅读(773) 评论(0) 推荐(0) 编辑

【机器学习】分类器组合——AdaBoost

摘要： AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。 AdaBoost其实只是boost的一个特例。一、流程图 1. 要训练出多个弱分类器（图中为3... 阅读全文

posted @ 2014-11-03 07:58 DianaCody 阅读(2307) 评论(0) 推荐(0) 编辑

DianaCody's Blog

博客部分文章已移至个人站点http://www.dianacody.com，关注Recommend System, Search Engine, Machine Learning, NLP。欢迎访问。

公告