Lei-Blog - 博客园

条件独立(conditional independence) 结合贝叶斯网络(Bayesian network) 概率有向图（PRML8.2总结）

摘要：转：http://www.cnblogs.com/Dzhouqi/p/3204481.html本文会利用到上篇，博客的分解定理，需要的可以查找上篇博客D-separation对任何用有向图表示的概率模型都成立，无论随机变量是离散还是连续，还是两者的结合。部分图为手写，由于本人字很丑，望见谅，只是想把PRML书的一些部分总结出来，给有需要的人看，希望能帮到一些人理解吧。阅读全文

posted @ 2013-12-11 18:21 Lei-Blog 阅读(618) 评论(0) 推荐(0)

无约束最优化一

摘要：转：http://www.52nlp.cn/unconstrained-optimization-one估计有些读者看到这个题目的时候会觉得很数学，和自然语言处理没什么关系，不过如果你听说过最大熵模型、条件随机场，并且知道它们在自然语言处理中被广泛应用，甚至你明白其核心的参数训练算法中有一种叫LBFGS，那么本文就是对这类用于解无约束优化算法的Quasi-Newton Method的初步介绍。事实上，这个系列的作者是我的师兄jianzhu，他在中文分词、语言模型方面的研究很深入，如果大家对于srilm的源代码感兴趣，可以参考他个人博客上写的“srilm阅读文档系列”，很有帮助。我曾经向他约. 阅读全文

posted @ 2013-12-09 14:50 Lei-Blog 阅读(549) 评论(0) 推荐(0)

LDA相关论文汇总

摘要：转：http://blog.csdn.net/pirage/article/details/9467547LDA理论David M. Blei, Andrew Y. Ng, and Michael I. Jordan.Latent dirichlet allocation. J. Mach. Learn. Res.,3:993–1022, March 2003.开山之作Rickjin.LDA数学八卦. 2013.2.8传说中的“上帝掷骰子”的来源之处。这篇文章是一个连载的科普性博客，作者是rickjin，文章分为7个章节，主要5个章节讲得是Gamma函数、Beta/Dirichlet函数、MC 阅读全文

posted @ 2013-12-05 09:37 Lei-Blog 阅读(1662) 评论(0) 推荐(0)

Spectral Clustering

摘要：转：http://www.cnblogs.com/vivounicorn/archive/2012/02/10/2343377.html Spectral Clustering（谱聚类）是一种基于图论的聚类方法，它能够识别任意形状的样本空间且收敛于全局最有解，其基本思想是利用样本数据的相似矩阵进行特征分解后得到的特征向量进行聚类，可见，它与样本feature无关而只与样本个数有关。一、图的划分图划分的目的是将有权无向图划分为两个或以上子图，使得子图规模差不多而割边权重之和最小。图的划分可以看做是有约束的最优化问题，它的目的是看怎么把每个点划分到某个子图中，比较不幸的是当你选择各种目标函数后发阅读全文

posted @ 2013-12-05 08:56 Lei-Blog 阅读(290) 评论(0) 推荐(0)

漫谈 Clustering (4): Spectral Clustering

摘要：转：http://blog.pluskid.org/?p=287如果说K-means和GMM这些聚类的方法是古代流行的算法的话，那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了，中文通常称为“谱聚类”。由于使用的矩阵的细微差别，谱聚类实际上可以说是一“类”算法。Spectral Clustering 和传统的聚类方法（例如 K-means）比起来有不少优点：和K-medoids类似，Spectral Clustering 只需要数据之间的相似度矩阵就可以了，而不必像 K-means 那样要求数据必须是 N 维欧氏空间中的向量。由于抓住了主要矛盾，忽略了次要的东阅读全文

posted @ 2013-12-04 21:55 Lei-Blog 阅读(402) 评论(0) 推荐(0)

流形学习{manifold learning}

摘要：转：http://blog.sina.com.cn/s/blog_4cf8aad30100g9uc.html流形学习假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。流形学习方法是模式识别中的基本方法，分为线性流形学习算法和非线性流形学习算法，线性方法就是传统的方法如主成分分析（PCA）和线性判别分析（LDA），非线行流形学习算法包括等距映射（Isomap），拉普拉斯特征映射（LE）等==========. 阅读全文

posted @ 2013-12-04 14:13 Lei-Blog 阅读(1418) 评论(0) 推荐(0)

Manifold Learning: ISOMAP

摘要：转：http://hi.baidu.com/chb_seaok/item/faa54786a3ddd1d7d1f8cd0b在常见的降维方法中，PCA和LDA是最为常用的两种降维方法。PCA是一种无监督方法，它关注的是将数据沿着方差最大化的方向映射。而LDA是一种监督方法，它寻找映射轴（类之间耦合度低，类内的聚合度高），两种方法估计的都是全局的统计信息（均值和协方差）。 manifold learning是最近比较热门的领域，它是一种非线性降维技术，主要研究的是高维数据的潜在的流行结构。首先我们来看下为什么要进行流行学习，先看经典图：图1 数据在高维空间空间中，什么事合理的距离度量（两... 阅读全文

posted @ 2013-12-04 14:03 Lei-Blog 阅读(2016) 评论(1) 推荐(0)

浅谈流形学习

摘要：转：http://blog.pluskid.org/?p=533总觉得即使是“浅谈”两个字，还是让这个标题有些过大了，更何况我自己也才刚刚接触这么一个领域。不过懒得想其他标题了，想起来要扯一下这个话题，也是因为和朋友聊起我自己最近在做的方向。Manifold Learning 或者仅仅 Manifold 本身通常就听起来颇有些深奥的感觉，不过如果并不是想要进行严格的理论推导的话，也可以从许多直观的例子得到一些感性的认识，正好我也就借这个机会来简单地谈一下这个话题吧，或者说至少是我到目前为止对这它的认识。这两个词，在谈 Manifold 之前，不妨先说说 Learning ，也就是 Machin 阅读全文

posted @ 2013-12-04 13:59 Lei-Blog 阅读(595) 评论(0) 推荐(0)

Topic model的变种及其应用［1］

摘要：转：http://www.blogbus.com/krischow-logs/65749376.htmlLDA 着实带领着 Topic model 火了一把。但是其实我们华人世界内，也不乏好汉，不过呢，都在UIUC，Prof. Zhai的小组里。他们关于Topic model的大多数工作，都是基于PLSA的变形，然后EM求解。这里面，他们有两点使用的出神入化，第一点就是先验概率的使用；第二点就是EM的各种变形了，regularized EM。。。他们组有一个很大的特点，就是问题新，写作特别流畅。不愧是华人IR第一组。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－阅读全文

posted @ 2013-12-03 21:35 Lei-Blog 阅读(813) 评论(0) 推荐(0)

关于LDA的文章

摘要：转：http://www.zhizhihu.com/html/y2011/3228.htmllTheorynIntroductionuUnsupervised learning by probabilistic latent semantic analysis.uLatent dirichlet allocation.uFinding scientific topics.uRethinking LDA: Why Priors MatteruOn an equivalence between PLSI and LDAnVariationsuCorrelated Topic Models.uHie 阅读全文

posted @ 2013-11-29 16:03 Lei-Blog 阅读(1620) 评论(0) 推荐(0)

Lei's Blog

公告