随笔分类 - 文本相似度
摘要:下面的内容转自我爱自然语言处理博客,感谢博主,学到很多东西。原文链接:http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80前几天,我发布了一个和在线教育相关的网站:课程图谱,这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课,特别是目前最火的Coursera,Udacity等公开课平台上的课程。在发布之前,遇到的一个问题是如何找到两个相关的公开课,最
阅读全文
摘要:近期在做关于文本相似度计算的研究,学习到一些计算文本相似度的方法,总结一下,大部分是转载别人的。1.TF*IDF(1)TFTermfrequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 为该关键词在这篇文章中的词频。(2)IDFInversedocumentfrequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 计算而得,其中D为文章总数,Dw为关键词出现过的文章数。2.基于向量空间模型的余弦相似度计算(1)算法步骤 预处理→文本特征项选择→加权→生成向量空间模型后计算余弦...
阅读全文
浙公网安备 33010602011771号