2012年8月26日

Mixture unigram Model, PLSA及LDA

摘要: Topic model 在搜索和广告,用户兴趣理解,推荐系统中有着非常泛的应用。它可以成为retrieval的方法,成为点击模型的信号,也是推荐系统中基于内容推荐的重要算法。Topic model最近这些年很火的原因是其在语料准备上比supervised model更容易,不需要人工的标注信息。对于我们应用模型的工程师而言,在原理上搞清楚几种常见的topic model的区别很重要,虽然影响实际应用效果的因素更主要的与训练语料,应用场景有关,但弄清几个算法的区别是使用topic model的前提条件。 topic models中,对unigram model和PLSA的理解非常重要。LDA虽 阅读全文

posted @ 2012-08-26 17:49 revv 阅读(4554) 评论(1) 推荐(1)

2012年7月12日

无偏估计器与最优估计器:Bayesian与orthodoxian之间的争论

摘要: 我们做工程的似乎不该花太多时间在什么最优或是无偏估计这样的争执上,但是这个争论是如何看待建模很重要的一个角度。这两个门派斗得不可开交的时候,不知道上帝是怎么看的。这里说的这些问题和举的例子部分是从E.T. Jaynes的"Probability theory: the logic of science"中总结出来,对工程而言,没有很直接的用途,但是orthodoxian和baysian之间的争执及baysian是如何随着历史的发展占了上风这样的过程本身既真实又挺有趣,对建模中的路线选择和问题解释,也有一定的借鉴意义。关于这两个流派的历史演进,看过对E.T. Jaynes的一 阅读全文

posted @ 2012-07-12 17:42 revv 阅读(1165) 评论(0) 推荐(0)

2012年7月3日

概率估计与Loss function

摘要: 决策与概率估计假设一个很简单的实验来看我们做决策的过程,有一个有偏的硬币,投了100次,60次出现人头,40次出现字,下一次抛硬币,如果我们猜对我们得1元,猜错我们交出1元。很直觉的,我们每次都会猜人头的啦。细细一想,我们在做这样一件事,max(60%*1+40%*(-1), 60%*(-1)+40%*1) 就是在估计了概率的情况下,我们看两个决策(人头/字)哪个带来的收益大。换一个想法,我们不先估计出经验分布P(Y|X),而是直接看有没有可能做出一个决策,使得它在历史的数据上得到收益是最大的,即max(60*1+40*(-1), 60*(-1)+40%*1)。这两种方法可以称为概率估计法及决 阅读全文

posted @ 2012-07-03 17:32 revv 阅读(8162) 评论(0) 推荐(0)

导航