上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: http://www.cnblogs.com/rocketfan/archive/2010/09/24/1833839.html 惊讶度 相加关系 不相关 p(x,y)=p(x)p(y) 如果按信息量 不相关应该信息量累加 相加 所以 log h(x) = -log(p(x)) 信息平均而言 H(x... 阅读全文
posted @ 2013-10-03 17:48 阁子 阅读(2756) 评论(0) 推荐(0) 编辑
摘要: 主要记录下几个文章博客内容 A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis(翟成祥的NOTE) A Note on EM Algorithm and PLSA(一个中文比较好的总结 by Xinyan Lu) 注意这两个是一个思路 Probabilistic Latent Semantic Analysis (原论文) 原论文是另一个思路 Notes on Probabilistic Latent Semantic Analysis (PLSA)(这个里面对比了两种不同思路,原论文与翟成祥NOTE,X... 阅读全文
posted @ 2011-07-03 22:34 阁子 阅读(6836) 评论(0) 推荐(1) 编辑
摘要: stanford的NLP课件是一个比较好的总结这里记录下。http://www.stanford.edu/class/cs224n/handouts/fsnlp-em-slides.pdf MLE 又一个不同的应用场景,但是可以看出基本都是mixture… 引入hidden variable让计算变的容易,因为确定了具体哪个part model产生 这个推导看前面的总结 关键词 下面是这个课件独有的,EM made easy 其实作者也是想证明Qfunction怎么获得的,思路和总结2中殊途同归,不过没有用log直接用概率*,利用artithmetic means >= geometri 阅读全文
posted @ 2011-06-18 16:04 阁子 阅读(988) 评论(0) 推荐(0) 编辑
摘要: Andrew Ng 关于EM有两个不错的课件 http://www.stanford.edu/class/cs229/notes/cs229-notes7b.pdf Mixtures of Gaussians and the EM algorithm http://www.stanford.edu/class/cs229/notes/cs229-notes8.pdf The EM algorith... 阅读全文
posted @ 2011-06-18 15:49 阁子 阅读(1727) 评论(0) 推荐(0) 编辑
摘要: A Note on the Expectation-Maximization(EM) Algorithm ChengXiang Zhai 的一篇EM算法note。/Files/rocketfan/em-note.pdf 1. 简介 KMEAS算法就是一种EM算法,比如要给所有的点聚类成两组,那么先随机取两个点作为中心,然后将所有点按照距离这两个点的聚类分类到这两个点上,分成两组,然后每个组再计算中... 阅读全文
posted @ 2011-06-18 12:16 阁子 阅读(4441) 评论(6) 推荐(1) 编辑
摘要: n元ngram模型本质上就是trie树的结构 ,逐层状态转移。在sun拼音中是采用的是逐层按照顺序用vector表示,查找的时候逐层二分查找。sun拼音的建立ngram模型的方法也是以按照字典序排好序的<ngram元组,次数>序列作为输入建立起来的。 利用顺序存储+二分查找应该是最节省空间的了。但是效率要受一定影响。其余的trie树实现包括可以利用map(hash_map更耗费空间一点),sun拼音也有一个基于map的trie树实现,sirlm是利用自己的一个LHash实现的类似。另外利用double array trie对于这种预先已经排好序不需要动态添加删除的情况也比较适合但是 阅读全文
posted @ 2011-03-09 16:11 阁子 阅读(4616) 评论(1) 推荐(0) 编辑
摘要: 由于语料不可能覆盖掉所有的情况,比如语料中有“小明读了一本书”, 那么“小李读了一本书”没有在语料中出现按照MLE最大似然估计其概率就是0,这显然是不合常理的。所以我们需要对模型进行光滑处理,就是要分一部分概率给语料中没有出现的部分。 问题是如何分配,应该分配多少呢。(下面的课件来自nhu的NLP课程) 这种情况看上去我们分给未知部分的概率太多了24/29 更多的观察更好的数据更小的光滑,分给未知部分23/326 一个极端的情况,这样add one广顺 其实会认为未知事物概率更大,看到我们训练中的数据的可能性很小。 可以看到对于大的词典,我们分配给未知事物的概率太大了。为了减少未知事物分配的概 阅读全文
posted @ 2011-03-09 16:10 阁子 阅读(4259) 评论(0) 推荐(0) 编辑
摘要: 1. 伯努利分布 现在问题是假如我们考虑抛硬币,如果3次都是head,那么根据伯努利,MLE推断 参数 那么我们会认为每次投掷都会是head,这显然与常识不符, 这里我们如果有一个先验知识就能纠正这个问题(考虑贝叶斯分类器中的0概率事件处理其实也是加一个先验知识而已来进行平滑),那么怎么加入先验知识呢? 这里我们利用贝叶斯法则,我们从原来的 来估算参数,改为后验 也即等价 估算参数。 这里我们希望 有类似的形式。从而引出了beta 分布,注意与(先验)的形式类似,只不过(a,b)变成(m+a, l+b),即我们的先验知识由于实际看到的情况做出来相应调整。 2. Beta分布 注意这里的Bin是 阅读全文
posted @ 2011-03-07 10:50 阁子 阅读(1907) 评论(0) 推荐(0) 编辑
摘要: 1. 线性拟合问题的迭代解法 batch gradient descent 梯度下降法,每次沿着梯度方向对于参数移动小的距离。 有两种具体实现,一种是每次移动的时候考虑所有的实验点,这种在训练集合较大的时候开销比较大。(如下,每次扫描所有m个试验点) 另外一种是stochastic gradient deseent 扫描每个点的时候就决定了参数的按照该点的梯度进行参数调整。即 每次参数调整只考虑当前一个试验点。这个收敛速度会更快,但是不保证能收敛到最佳,但是如果逐步调小的值可以收敛到最佳。 我个人觉得gradient descent的方法都是依赖起始位置吧,最终都是一个局部最优结果。 2. 矩 阅读全文
posted @ 2011-03-06 10:16 阁子 阅读(1988) 评论(2) 推荐(0) 编辑
摘要: 决定系统学习下机器学习了,以stanford课件为主线。 notes1是关于回归的部分http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf 1.线性回归 举例是对于房子价格的预测,它这个数据很遗憾网上找不到,那么就暂时用5个数据点做下实验吧。 准备house.txt,5个数据记录大小,卧室数目,价格。 area bedrooms pr... 阅读全文
posted @ 2011-02-27 16:05 阁子 阅读(2635) 评论(2) 推荐(2) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页