Hadoop目录导读

一、安装

1.1、安装hadoop

1.2、启动中出现的问题

1.3、调试中出现的问题

1、Hadoop格式化HDFS报错java.net.UnknownHostException: centos64
2、hadoop-分布式安装及报错分析
3、SSH 无密码login
4、Hadoop II Windows下安装hadoop2.6.0-eclipse-plugin插件
5、hadoop2.x常用端口、定义方法及默认端口

1.4、简单案例WordCount

二、原理的介绍

HDFS原理及操作

2.1、MapReduce原理

InputSplit介绍
InputFormat-mapper的前期操作

  • inputFormat 负责创建inputSplit并且将他们拆分成键值对(records)

统计topN

  • 自定义分区(partition), 排序(sort), 分组(group)
  • reduce处理数据是分组进行处理。

MapReduce原理 mapper, reducer,shuffler之一
MapReduce原理 mapper, reducer,shuffler之二
MapReduce原理 mapper, reducer,shuffler之三

2.2、hadoop实现join方法

Eclipse项目复制出现问题及设置hadoop配置问题

三、MR应用

3.1、每个月最高三个温度

3.2、好友推荐

3.3、PageRank

3.4、新浪微博TF-IDF

3.5、协同过滤天猫推荐

关注我的公众号 【宝哥大数据】

在这里插入图片描述

posted @ 2021-06-17 15:42  宝哥大数据  阅读(42)  评论(0)    收藏  举报