• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
JumperMan

对不起,我是一个程序员.

博客园    首页    新随笔    联系   管理    订阅  订阅
TF-IDF与余弦相似性的应用:找出相似文章

"找出相似文章"的一种算法:

  1. 利用TF-IDF算法,找出两篇文章的关键词。
  2. 每篇文章若干个关键词的相对词频。 
  3. 生成两篇文章各自的词频向量。
  4. 计算两个向量的余弦相似度,值越大就表示越相似。  

 

 

原文链接作者阮一峰:

 

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

另一应用自动摘要:

http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

posted on 2017-03-09 10:14  JumperMan  阅读(276)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3