CJZhaoSimons - 博客园

2017年2月21日

摘要：分组：相同key的value进行分组例子：如下输入输出，右边的第一列没有重复值，第二列取得是当第一列相同时第二例取最大值分析：首先确定<k3,v3>,k3的选择两种方式，方法1.前两列都作为k3 方法2.两列分别是k3和v3，此种情况的k2和v2分别是那些，第一列为k2，第二列为v2，但是最后阅读全文

posted @ 2017-02-21 19:17 CJZhaoSimons 阅读(2018) 评论(0) 推荐(1)

MapReduce排序

摘要：在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类，作为k2，才能参与比较。例子: 二次排序：在第一列有序得到前提下第二列進行排序。思路：先找<k3,v3>在找<k2,v2>之後的mapreduce就容易寫了方法1 阅读全文

posted @ 2017-02-21 15:21 CJZhaoSimons 阅读(907) 评论(0) 推荐(0)

博客园添加访问人数统计

摘要：无意中看到有这个访问量的统计，觉得挺好玩的，我们现在就来添加一个吧： 1. 先到http://www.amazingcounters.com/sign-up.php 这个地址去申请一个帐户，申请时填写好自己的资料，比如你的统计风格样式、要统计的地址、要统计的类型，是浏览量(PV) 还是访客数(U 阅读全文

posted @ 2017-02-21 12:51 CJZhaoSimons 阅读(344) 评论(0) 推荐(0)

2017年2月17日

MapReduce的分区

摘要：第一部分分区简述(比如国家由省市来划分) 分区：map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer，就会使得reducer并行化处理任务。默认为1 1. Partitioner是partitioner的基类，如果需要定制partitioner也需要阅读全文

posted @ 2017-02-17 14:31 CJZhaoSimons 阅读(851) 评论(0) 推荐(0)

MapReduce的计数器

摘要：第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指标，及时做出错误诊断并进行相应处理。内置计数器（MapReduce相关、文件系统相关和作业调度相关），也可以通过http://master:50030/jobdetails.jsp查看阅读全文

posted @ 2017-02-17 10:40 CJZhaoSimons 阅读(2015) 评论(0) 推荐(0)

2017年2月16日

MapReduce部分源码解读(一)

摘要： 1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contributor license agreements. See the NOTICE file 4 * distributed w 阅读全文

posted @ 2017-02-16 15:30 CJZhaoSimons 阅读(2192) 评论(2) 推荐(3)

2017年2月15日

Hadoop序列化

摘要：数据在虚拟机内外交换的方式简称为序列化 *序列化（Serialization）是指把结构化对象转化为字节流。(写出去，以内存中得对象为基础或参照物) *反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。(读进来，以内存中得对象为基础或参照物) Java序列化（ja 阅读全文

posted @ 2017-02-15 16:11 CJZhaoSimons 阅读(606) 评论(3) 推荐(0)

2017年2月14日

Mapreduce实验一：WordCountTest

摘要： 1.确定Hadoop处于启动状态 [root@neusoft-master ~]# jps 23763 Jps3220 SecondaryNameNode3374 ResourceManager2935 NameNode3471 NodeManager3030 DataNode 2. 在/usr/l 阅读全文

posted @ 2017-02-14 22:49 CJZhaoSimons 阅读(1338) 评论(0) 推荐(0)

2017年2月5日

Mapreduce 原理及程序分析

摘要： 1.MapReduce（Map+Reduce）提出一个问题：目标：你想数出一摞牌中有多少张黑桃。直观方式：一张一张检查并且数出有多少张是黑桃数目 MapReduce方法则是：给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃，(map) 然后把这个数目汇报给你你把所有玩家告诉阅读全文

posted @ 2017-02-05 18:03 CJZhaoSimons 阅读(756) 评论(0) 推荐(0)

2017年1月30日

SequenceFile实例操作

摘要： HDFS API提供了一种二进制文件支持，直接将<key,value>对序列化到文件中，该文件格式是不能直接查看的，可以通过hadoop dfs -text命令查看，后面跟上SequenceFile的HDFS路径通过写入SequenceFile和读入SequenceFile文件，打成jar包在Ha 阅读全文

posted @ 2017-01-30 20:19 CJZhaoSimons 阅读(1048) 评论(0) 推荐(0)

2017年1月28日

HDFS 命令深入浅出

摘要： HDFS 命令深入浅出~ [root@neusoft-master ~]# hadoop dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] 阅读全文

posted @ 2017-01-28 12:37 CJZhaoSimons 阅读(2494) 评论(0) 推荐(0)

启动原生Hadoop集群或伪分布环境

摘要：一：启动Hadoop 集群或伪分布安装成功之后，通过执行./sbin/start-all.sh启动Hadoop环境通过jps命令查看当前启动进程是否正确~ [root@neusoft-master hadoop-2.6.0-cdh5.6.0]# pwd/opt/hadoop-2.6.0-cdh5. 阅读全文

posted @ 2017-01-28 07:24 CJZhaoSimons 阅读(603) 评论(0) 推荐(0)

2017年1月9日

HDFS的Java客户端操作代码(查看HDFS下所有的文件存储位置信息)

摘要： 1.查看HDFS下所有的文件存储位置信息 1 package Hdfs; 2 3 import java.net.URI; 4 import org.apache.hadoop.conf.Configuration; 5 import org.apache.hadoop.fs.BlockLocati 阅读全文

posted @ 2017-01-09 23:41 CJZhaoSimons 阅读(791) 评论(0) 推荐(0)

HDFS的Java客户端操作代码(查看HDFS下所有的文件或目录)

摘要： 1.查看HDFS下所有的文件或目录 1 package Hdfs; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import org.apache.hadoop.conf.Configuration; 6 import org.a 阅读全文

posted @ 2017-01-09 23:22 CJZhaoSimons 阅读(2020) 评论(0) 推荐(0)

HDFS的Java客户端操作代码(查看HDFS下的文件是否存在)

摘要： 1.查看HDFS目录下得文件是否存在 1 package Hdfs; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import org.apache.hadoop.conf.Configuration; 6 import org. 阅读全文

posted @ 2017-01-09 23:09 CJZhaoSimons 阅读(3618) 评论(0) 推荐(0)

Mr.Zhao

---做好每一件小事

公告