随笔分类 -  数据挖掘自然语言处理

EM算法
摘要:Expectation Maximization AlgorithmEM算法是一种在存在不完整数据情况下,广泛使用进行最大似然估计的迭代算法,具体来讲在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。通常分为两个步骤,Expectation-step 和 Maximization-step。在期望过程中,通常是使用现有的参数对数据的不完整部分进行填充;而在最大化的过程中,则是利用期望过程的结果对各个参数进行重新估计。EM算法逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。eg1:使用EM算法进行贝叶斯文本分类时,重复E-step和M-s 阅读全文

posted @ 2013-02-25 16:23 驼浪 阅读(241) 评论(0) 推荐(0)

信息检索IR的评价指标
摘要:信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。IR的评价指标,通常分为三个方面:(1)效率(Efficiency)—可以采用通常的评价方法:时间开销、空间开销、响应速度。(2)效果(Effectiveness):返回的文档中有多少相关文档、所有相关文档中返回了多少、返回得靠不靠前。(3)其他指标:覆盖率(Coverage)、访问量、数据更新速度。如何评价不同检索系统的效果呢?一般是针对相同的文档集合,相同的查询主题集 阅读全文

posted @ 2013-01-18 14:56 驼浪 阅读(984) 评论(0) 推荐(0)