hadoop笔记一
1.怎么做推荐系统:
推荐系统架构:在一个公司,要做一个推荐系统,要分三层:a:第一层,offline层,线下层,对海量数据进行离线加工的,例如:mapreduce。b:第二层,nearline层,线下和在线夹着的,允许你的数据有延迟的,但是不要延迟太大,利用流式处理技术,对实时产生的数据做加工,如storm。c:第三层,online层,在线层,负责在线计算,处理相对简单运算逻辑,例如在线引擎。
2.传统海量数据处理技术:传统hash、一致性hash。 大数据、大流量、大计算。
3.mapreduce基础:mapreduce思想就是分而治之。
4.mapreduce讲解:

计算框架所处理的数据都是在HDFS上的,inputformat是一个mapreduce接口,作用是对hdfs上的数据进行切片、分块,分出来的每一块或者每一片都可以作为map的输入,reduce的输入时每一个map的输出。 mapreduce慢在哪里?排序;还有数据要落地,磁盘io,网络io,读写。


浙公网安备 33010602011771号