随笔分类 - 算法理论
摘要:文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于空间向量的余弦算法2.1算法步骤预处理→文本特征项选择→加权→生成向量空间模型后计算余弦。2.2步骤简介2.2.1预处理预处理主要是进行中文分词和去停用词,分词的开源代码有:ICT
阅读全文
浙公网安备 33010602011771号