摘要: 一、中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分... 阅读全文
posted @ 2014-11-09 15:28 DianaCody 阅读(2753) 评论(0) 推荐(0) 编辑
摘要: EM, ExpectationMaximization Algorithm, 期望最大化算法。一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计,其概率模型依赖于无法观测的隐变量。 经常用在ML与计算机视... 阅读全文
posted @ 2014-11-09 13:56 DianaCody 阅读(1157) 评论(0) 推荐(0) 编辑