2013年7月15日
摘要: Deep Learning for NLP 文章列举原文链接:http://www.xperseverance.net/blogs/2013/07/2124/大部分文章来自:http://www.socher.org/http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial包括从他们里面的论文里找到的related workWord Embedding LearnigSENNA原始论文【ACL'07】Fast Semantic Extraction Using a Novel Neural Network Archit 阅读全文
posted @ 2013-07-15 23:20 恒恒恒 阅读(1205) 评论(1) 推荐(1) 编辑
  2013年4月30日
摘要: 具体内容请看原文:http://www.xperseverance.net/blogs/2013/03/1744/伟大的Parameter estimation for text analysis!当把这篇看的差不多的时候,也就到了LDA基础知识终结的时刻了,意味着LDA基础模型的基本了解完成了。所以对该模型的学习告一段落,下一阶段就是了解LDA无穷无尽的变种,不过那些不是很有用了,因为LDA已经被人水遍了各大“论坛”……总结一下学习过程:1.概率的基本概念:CDF、PDF、Bayes’rule、各种简单的分布Bernoulli,binomial,multinomial、包括对prior、li 阅读全文
posted @ 2013-04-30 15:54 恒恒恒 阅读(468) 评论(4) 推荐(0) 编辑
摘要: 这里为了增加访问量,具体请看原文:http://www.xperseverance.net/blogs/2013/03/1682/这几天较空总算把《Gibbs Sampling for the Uninitiated》看明白了点,看完这个对其他模型的 Gibbs Sampling 感觉应该是不会有大问题了,之后可以再仔细看看《Parameter estimation for text analysis》,然后对照他的代码写一份总结。在此真是万分感谢这个作者,拯救了万千Uninitiated!要是没有这样的tutorial,也没人教,谁特么知道这东西怎么弄。基础知识:随机过程、马尔科夫蒙特卡洛、 阅读全文
posted @ 2013-04-30 15:52 恒恒恒 阅读(555) 评论(0) 推荐(1) 编辑
  2012年3月27日
摘要: 以下内容转自:http://www.xperseverance.net/blogs/2012/03/510/cnblogs无法表示数学公式,原博客数学公式可以表达出来。Dirichlet分布可以看做是分布之上的分布。如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我 阅读全文
posted @ 2012-03-27 21:08 恒恒恒 阅读(21289) 评论(0) 推荐(2) 编辑
  2012年3月7日
摘要: 今天从网上搜的 EM 算法的原始论文叫做 Maximum likelihood from incomplete data via the EM algorithm,下次仔细学习的时候可以看看,最近比较功利,就不弄得那么明白了。(2012@3@21)9.1 K-means Clustering主要介绍了 K-means 和 EM 算法之间的关系,第一次听说原来K-means 就是 EM 算法,不知道的东东还真是多。接下来第二小结是 Mixtures of Gaussians,看来不得不回2.3去看了。9.2 Mixtures of Gaussians这章内容太多,所以单独写成分日志。第一部分链接 阅读全文
posted @ 2012-03-07 16:48 恒恒恒 阅读(512) 评论(0) 推荐(0) 编辑
摘要: http://its.buffalo.edu/services/capture/links/spr12/CSE674.html 阅读全文
posted @ 2012-03-07 10:13 恒恒恒 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 这个人的水平还真不是一般的强,佩服啊转载自:http://bbs.byr.cn/#!article/PR_AI/2530?p=1原文的主要内容 有两种方法设计分类器: 1. discriminative model,就是由样本直接设计判别函数,例如SVM; 2. generative model,就是先从样本恢复概率模型——例如我们熟悉的参数方法:混合高斯模型GMM;非参数方法Parzen窗。然后再充分挖掘模型,用以分类。例如Bayes最大后验概率准则;或者将模型中的参数当作提取的特征(参数一般都比较少,所以这么做实际上是在降维),在这些新特征上设计分类器(例如又用SVM)。 恢复... 阅读全文
posted @ 2012-03-07 09:46 恒恒恒 阅读(831) 评论(0) 推荐(1) 编辑
  2012年3月6日
摘要: 本文转自:http://www.xperseverance.net/blogs/2012/03/17/听说国外大牛都认为LDA只是很简单的模型,吾辈一听这话,只能加油了~另外这个大牛写的LDA导读很不错:http://bbs.byr.cn/#!article/PR_AI/2530?p=1一、预备知识: 1. 概率密度和二项分布、多项分布,在这里 2. 狄利克雷分布,在这里,主要内容摘自《Pattern Recognition and Machine Learning》第二章 3. 概率图模型,在PRML第九章有很好的介绍二、变量表示: 1. word:word是最基本的离散概念... 阅读全文
posted @ 2012-03-06 21:56 恒恒恒 阅读(572) 评论(2) 推荐(1) 编辑
  2012年3月5日
摘要: 这只是一个临时图,未来会慢慢扩充现在的任务有三个:1.看LDA论文2.学习狄利克雷分布,搞懂它和多元分部之间的关系,搞懂LDA模型的各种参数之间关系以及generate的过程3.递归至Graphical Model学习2012@3@52012@3@7 阅读全文
posted @ 2012-03-05 22:36 恒恒恒 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 8.2.1 Three example graphs书中说明了三种基本条件独立的结构(1) tail-to-tail (从a,b的角度看,a和b都是c的tail)如图 Figure 8.15整个图表示abc的联合概率 p(a,b,c),此时可以根据图8.15的结构推出 p(a,b,c) = p(a|c)p(b|c)p(c)如果同时两边对c取边缘概率(marginalizing both sides with respect toc),则可以得到式8.24通常情况下,式8.24右边那部分是不会等于p(a)*p(b)的,所以a,b是不相互独立的。但是如果c是作为输入而被已观察到了,情况就变成了图. 阅读全文
posted @ 2012-03-05 22:24 恒恒恒 阅读(398) 评论(0) 推荐(0) 编辑