Recommender System
摘要:推荐系统我们都很熟悉,淘宝推荐用户可能感兴趣的产品,搜索引擎帮助用户发现可能感兴趣的东西,这些都是推荐系统的内容。接下来讲述一个电影推荐的项目。 一、电影推荐系统中的算法 User Collaborative Filtering (User CF) Item Collaborative Filter
阅读全文
PageRank
摘要:另一篇介绍的很好的博客:http://blog.jobbole.com/71431/ 一、什么是PageRank PageRank 是对搜索引擎的搜索网页进行排序的算法。 过去的排序算法是比如使用网页名字,关键词出现的次数,人工等方法,但是这种方法一方面搜索结果不准确,另一方面搜索结果容易被人为因素
阅读全文
Map-Reduce基础
摘要:1.设置文件读入分隔符 默认按行读入; 按句子读入 : conf1.set("textinputformat.record.delimiter", "."); 2.set up 方法 此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。 若是将资源初
阅读全文
Docker Hadoop LAMP安装配置教程
摘要:以下教程来自九章算法。 1.How to install Docker https://bupt.quip.com/YehSAR4qnGqB 2.How to set up hadoop environment https://bupt.quip.com/85VvAGqcb0Lg 3.Setup L
阅读全文
HDFS Architecture
摘要:Two kind of database architectures: Master slave model High consistency Simpler design Single master node is not robust Peer peer model Distributes re
阅读全文
Goole Search Auto Complete
摘要:这个项目就九章算法大数据课程的一个项目。主要分为两步: 第一步是 offline 建立 数据库 我们用两个map reduce 的data pipline 来实现。 第二步是 online显示把数据里面数据读出来显示。 如果实际运用中 第一步 mapreduce 一般数据一天之内更新不会太多 所以m
阅读全文
TopK-微博今日热门话题
摘要:大纲 TopK on single node TopK on multiple nodes Realtime topK with low QPS Realtime topK with high QPS Approx TopK MapReduce 一、TopK on single node 从几个关于
阅读全文
Hadoop开发环境搭建
摘要:1 设置ssh免密码登陆 由于每次启动服务都要输入密码,为了避免以后麻烦,这里首先设置ssh免密码登陆 首先关闭防火墙 setup调出防火墙配置工具,enter进入filewall configuration 按空格关闭。出来service iptables status,如果显示service i
阅读全文