梦里南柯 - 博客园

2018年3月10日

摘要：一.介绍及数据准备把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。参考博客：https://www.cnblogs.com/zlslch/p/6440114.html 1.建立一个文件夹 2.在文件夹下建立三个文件，准备数据：阅读全文

posted @ 2018-03-10 15:14 梦里南柯阅读(568) 评论(0) 推荐(0)

2018年3月5日

大数据笔记（十）——Shuffle与MapReduce编程案例（A）

摘要：一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数：yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上，nodemanager运行mapreduce程序的方式就是shuffl 阅读全文

posted @ 2018-03-05 00:20 梦里南柯阅读(471) 评论(0) 推荐(0)

2018年3月3日

大数据笔记（九）——Mapreduce的高级特性（B）

摘要：二.排序对象排序员工数据 Employee.java > 作为key2输出需求：按照部门和薪水升序排列 Employee.java EmployeeSortMapper.java EmployeeSortMain.java 结果：三.分区分区:Partition: 根据Map的输出（k2 v 阅读全文

posted @ 2018-03-03 23:36 梦里南柯阅读(245) 评论(0) 推荐(0)

2018年3月1日

大数据笔记（八）——Mapreduce的高级特性（A）

摘要：一.序列化类似于Java的序列化：将对象——>文件如果一个类实现了Serializable接口，这个类的对象就可以输出为文件同理，如果一个类实现了的Hadoop的序列化机制（接口：Writable），这个类的对象就可以作为输入和输出的值例子：使用序列化求每个部门的工资总额数据：在map阶阅读全文

posted @ 2018-03-01 22:19 梦里南柯阅读(479) 评论(0) 推荐(0)

大数据笔记（七）——Mapreduce程序的开发

摘要：一.分析Mapreduce程序开发的流程 1.图示过程输入：HDFS文件 /input/data.txt Mapper阶段： K1:数据偏移量（以单词记）V1：行数据 K2:单词 V2:记一次数 Reducer阶段 : K3:单词（=K2） V3:V2计数的集合 K4:单词 V4:V3集合中元素累阅读全文

posted @ 2018-03-01 00:14 梦里南柯阅读(312) 评论(0) 推荐(0)

2018年2月28日

大数据笔记（六）——HDFS的底层原理：JAVA动态代理和RPC

摘要：一、Java的动态代理对象实现代码如下： 1.接口类MyService 2.接口实现类MyServiceImpl 3.测试类TestMain console: 二、RPC：远程过程调用 1.服务端：发布一个接口（MyBusiness）到RPC Server上实现类：MyBusinessImpl 阅读全文

posted @ 2018-02-28 00:06 梦里南柯阅读(294) 评论(0) 推荐(0)

2018年2月26日

大数据笔记（五）——HDFS的高级特性

摘要：一.HDFS的回收站: recyclebin 1.HDFS的回收站默认是关闭的 2.启用回收站：去core-site.xml配置路径：/root/training/hadoop-2.7.3/etc/hadoop 3.配置完成后删除目录 hdfs dfs -rmr /folder1 日志：本质：删阅读全文

posted @ 2018-02-26 23:50 梦里南柯阅读(367) 评论(0) 推荐(0)

大数据笔记（四）——操作HDFS

摘要：一.Web Console：端口50070 二.HDFS的命令行操作（一）普通操作命令 HDFS 操作命令帮助信息： hdfs dfs + Enter键常见命令 1. -mkdir 在HDFS上创建目录：hdfs dfs -mkdir /aaa 如果父目录不存在，使用 -p 命令先创建父目录：阅读全文

posted @ 2018-02-26 00:30 梦里南柯阅读(552) 评论(0) 推荐(0)

2018年2月21日

大数据笔记（三）——Hadoop2.0的安装与配置

摘要：一.Hadoop安装部署的预备条件准备：1、安装Linux和JDK。安装JDK 2、关闭防火墙 3、配置主机名输入：vi /etc/hosts，回车解压hadoop：tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/ 设置环境变量：vi ~/.bash_ 阅读全文

posted @ 2018-02-21 23:08 梦里南柯阅读(617) 评论(0) 推荐(0)

2018年2月20日

大数据笔记（二）——Apache Hadoop的体系结构

摘要：一.分布式存储 NameNode（名称节点） 1.维护HDFS文件系统，是HDFS的主节点。 2.接收客户端的请求：上传、下载文件、创建目录等。 3.记录客户端操作的日志（edits文件），保存了HDFS最新的状态 1）Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作，比如：增阅读全文

posted @ 2018-02-20 23:32 梦里南柯阅读(374) 评论(0) 推荐(1)

lingluo2017

公告