【数据挖掘】 - 随笔分类 - Simon92

数据挖掘----推荐算法(CF)

摘要：协同算法： User-Based CF 计算user与user的相似度矩阵 Item-Based CF计算item-item的相似度矩阵假设： - 用户喜欢哪些跟他有相似爱好的用户喜欢的东西 - 具有相似兴趣的用户在未来也具有相似兴趣方法： - 给定用户u，找到一个用户的集合N(u)，他们和u具阅读全文

posted @ 2020-07-25 21:29 Simon92 阅读(414) 评论(0) 推荐(0)

大数据之路【第十五篇】:数据挖掘--推荐算法

摘要：搜索MV推荐搜索周杰伦阅读全文

posted @ 2019-09-07 18:11 Simon92 阅读(863) 评论(0) 推荐(0)

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

摘要：数据挖掘推荐算法(Mahout工具) 一、简介 Apache顶级项目(2010.4) Hadoop上的开源机器学习库可伸缩扩展的 Java库推荐引擎(协同过滤)、聚类和分类二、机器学习介绍通常问题都归为这几类问题分类问题回归问题聚类问题推荐问题三、安装方法 3.1 下载Mahou 阅读全文

posted @ 2019-09-07 12:39 Simon92 阅读(2269) 评论(0) 推荐(0)

大数据之路【第十三篇】:数据挖掘---中文分词

摘要：一、数据挖掘中文分词 • 一段文字不仅仅在于字面上是什么，还在于怎么切分和理解。• 例如： – 阿三炒饭店： – 阿三 / 炒饭 / 店阿三 / 炒 / 饭店• 和英文不同，中文词之间没有空格，所以实现中文搜索引擎，比英文多了一项分词的任务。• 如果没有中文分词会出现： – 搜索“达内”，会出现阅读全文

posted @ 2019-09-04 01:30 Simon92 阅读(1690) 评论(0) 推荐(0)

大数据之路【第十二篇】：数据挖掘--NLP文本相似度

摘要：一、词频 TF • 假设：如果一个词很重要，应该会在文章中多次出现 • 词频——TF（Term Frequency）：一个词在文章中出现的次数 • 也不是绝对的！出现次数最多的是“的”“是”“在”，这类最常用的词，叫做停用词（stop words）• 停用词对结果毫无帮助，必须过滤掉的词 • 过滤掉阅读全文

posted @ 2019-09-03 15:56 Simon92 阅读(1061) 评论(0) 推荐(0)

rui

随笔分类 - 【数据挖掘】

公告