随笔分类 - 【数据挖掘】
摘要:协同算法: User-Based CF 计算user与user的相似度矩阵 Item-Based CF计算item-item的相似度矩阵 假设: - 用户喜欢哪些跟他有相似爱好的用户喜欢的东西 - 具有相似兴趣的用户在未来也具有相似兴趣 方法: - 给定用户u,找到一个用户的集合N(u),他们和u具
阅读全文
摘要:数据挖掘 推荐算法(Mahout工具) 一、简介 Apache顶级项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类 二、机器学习介绍 通常问题都归为这几类问题 分类问题 回归问题 聚类问题 推荐问题 三、安装方法 3.1 下载Mahou
阅读全文
摘要:一、数据挖掘 中文分词 • 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店• 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。• 如果没有中文分词会出现: – 搜索“达内”,会出现
阅读全文
摘要:一、词频 TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”“是”“在”,这类最常用的词,叫做停用词(stop words)• 停用词对结果毫无帮助,必须过滤掉的词 • 过滤掉
阅读全文