随笔档案「2017年2月」 - CJZhaoSimons

Hadoop伪分布安装详解(五)

摘要：目录： 1.修改主机名和用户名 2.配置静态IP地址 3.配置SSH无密码连接 4.安装JDK1.7 5.配置Hadoop 6.安装Mysql 7.安装Hive 8.安装Hbase 9.安装Sqoop ******************** 8.安装Hbase HBase是基于HDFS的一种列式数阅读全文

posted @ 2017-02-26 22:22 CJZhaoSimons 阅读(770) 评论(1) 推荐(0)

Hadoop伪分布安装详解(四)

摘要：目录： 1.修改主机名和用户名 2.配置静态IP地址 3.配置SSH无密码连接 4.安装JDK1.7 5.配置Hadoop 6.安装Mysql 7.安装Hive 8.安装Hbase 9.安装Sqoop ******************** 为什么要安装Mysql？因为Hive的元数据和数据是分阅读全文

posted @ 2017-02-26 20:17 CJZhaoSimons 阅读(1345) 评论(4) 推荐(0)

Hadoop伪分布安装详解(三)

摘要：目录： 1.修改主机名和用户名 2.配置静态IP地址 3.配置SSH无密码连接 4.安装JDK1.7 5.配置Hadoop 6.安装Mysql 7.安装Hive 8.安装Hbase 9.安装Sqoop ******************** 5.配置Hadoop(伪分布式) （1）通过Secure 阅读全文

posted @ 2017-02-26 19:02 CJZhaoSimons 阅读(1388) 评论(2) 推荐(1)

Hadoop伪分布安装详解(二)

摘要：目录： 1.修改主机名和用户名 2.配置静态IP地址 3.配置SSH无密码连接 4.安装JDK1.7 5.配置Hadoop 6.安装Mysql 7.安装Hive 8.安装Hbase 9.安装Sqoop ******************** 1.修改主机名和用户名修改主机名：Centos中通过v 阅读全文

posted @ 2017-02-26 18:12 CJZhaoSimons 阅读(1180) 评论(0) 推荐(1)

Hadoop伪分布安装详解(一)

摘要：注：以下截图针对Ubuntu操作系统，对Centos步骤类似。请读者选择不同镜像即可。第一部分：VMware WorkStation10 安装 1.安装好VMware10虚拟机软件并下载好Ubuntu16.04 LTS 64位版的镜像包 2.打开VMware10虚拟机软件，选择“创建新的虚拟机” 阅读全文

posted @ 2017-02-26 16:17 CJZhaoSimons 阅读(1170) 评论(0) 推荐(0)

MapRedece(多表关联)

摘要：多表关联：准备数据 ******************************************** 工厂表： ************************************** **** 地址表： **************************************** 阅读全文

posted @ 2017-02-22 20:24 CJZhaoSimons 阅读(730) 评论(0) 推荐(0)

MapRedece(单表关联)

摘要：源数据：Child--Parent表目标：表的自连接：从图中可以找出Tom的grandparent为Marry和Ben，同理可以找出其他的人的grandparent 根据Child--Parent表推断grandchild和grandparent 左表右表将一张表分解为两张表的连接：从图中可以阅读全文

posted @ 2017-02-22 17:02 CJZhaoSimons 阅读(621) 评论(0) 推荐(0)

MapReduce实例(数据去重)

摘要：数据去重：原理(理解)：Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>，原始数据中出现次数超过一次的数据在输出文件中只出现一次。Reduce的输出是不重复的数据，也就是每一行数据作为key，即k3。而v3为空或不需要设值。根据<k3，v3>得到k2为每一行的阅读全文

posted @ 2017-02-22 13:23 CJZhaoSimons 阅读(8231) 评论(2) 推荐(1)

Mapreduce其他部分

摘要：1.hadoop的压缩codec Codec为压缩，解压缩的算法实现。在Hadoop中，codec由CompressionCode的实现来表示。下面是一些实现：可分割性：可分割与不可分割的区别：文件是否可被切成多个inputsplit。对于不能切割的文件，如果使用mapreduce算法，需要切阅读全文

posted @ 2017-02-21 23:17 CJZhaoSimons 阅读(400) 评论(0) 推荐(0)

MapReduce的洗牌(Shuffle)

摘要：Shuffle过程：数据从map端传输到reduce端的过程~ Map端每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）,一个后台线程把内容写到(spill)磁盘的指定目录（mapr 阅读全文

posted @ 2017-02-21 22:01 CJZhaoSimons 阅读(701) 评论(0) 推荐(0)

MapReduce规约

摘要：深入了解Combiners编程(相当于Map端的Reduce) 每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用co 阅读全文

posted @ 2017-02-21 20:36 CJZhaoSimons 阅读(980) 评论(0) 推荐(1)

MapReduce分组

摘要：分组：相同key的value进行分组例子：如下输入输出，右边的第一列没有重复值，第二列取得是当第一列相同时第二例取最大值分析：首先确定<k3,v3>,k3的选择两种方式，方法1.前两列都作为k3 方法2.两列分别是k3和v3，此种情况的k2和v2分别是那些，第一列为k2，第二列为v2，但是最后阅读全文

posted @ 2017-02-21 19:17 CJZhaoSimons 阅读(2011) 评论(0) 推荐(1)

MapReduce排序

摘要：在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类，作为k2，才能参与比较。例子: 二次排序：在第一列有序得到前提下第二列進行排序。思路：先找<k3,v3>在找<k2,v2>之後的mapreduce就容易寫了方法1 阅读全文

posted @ 2017-02-21 15:21 CJZhaoSimons 阅读(902) 评论(0) 推荐(0)

博客园添加访问人数统计

摘要：无意中看到有这个访问量的统计，觉得挺好玩的，我们现在就来添加一个吧： 1. 先到http://www.amazingcounters.com/sign-up.php 这个地址去申请一个帐户，申请时填写好自己的资料，比如你的统计风格样式、要统计的地址、要统计的类型，是浏览量(PV) 还是访客数(U 阅读全文

posted @ 2017-02-21 12:51 CJZhaoSimons 阅读(340) 评论(0) 推荐(0)

MapReduce的分区

摘要：第一部分分区简述(比如国家由省市来划分) 分区：map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer，就会使得reducer并行化处理任务。默认为1 1. Partitioner是partitioner的基类，如果需要定制partitioner也需要阅读全文

posted @ 2017-02-17 14:31 CJZhaoSimons 阅读(847) 评论(0) 推荐(0)

MapReduce的计数器

摘要：第一部分.Hadoop计数器简述 hadoop计数器: 可以让开发人员以全局的视角来审查程序的运行情况以及各项指标，及时做出错误诊断并进行相应处理。内置计数器（MapReduce相关、文件系统相关和作业调度相关），也可以通过http://master:50030/jobdetails.jsp查看阅读全文

posted @ 2017-02-17 10:40 CJZhaoSimons 阅读(1999) 评论(0) 推荐(0)

MapReduce部分源码解读(一)

摘要：1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contributor license agreements. See the NOTICE file 4 * distributed w 阅读全文

posted @ 2017-02-16 15:30 CJZhaoSimons 阅读(2175) 评论(2) 推荐(3)

Hadoop序列化

摘要：数据在虚拟机内外交换的方式简称为序列化 *序列化（Serialization）是指把结构化对象转化为字节流。(写出去，以内存中得对象为基础或参照物) *反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。(读进来，以内存中得对象为基础或参照物) Java序列化（ja 阅读全文

posted @ 2017-02-15 16:11 CJZhaoSimons 阅读(595) 评论(3) 推荐(0)

Mapreduce实验一：WordCountTest

摘要：1.确定Hadoop处于启动状态 [root@neusoft-master ~]# jps 23763 Jps3220 SecondaryNameNode3374 ResourceManager2935 NameNode3471 NodeManager3030 DataNode 2. 在/usr/l 阅读全文

posted @ 2017-02-14 22:49 CJZhaoSimons 阅读(1325) 评论(0) 推荐(0)

Mapreduce 原理及程序分析

摘要：1.MapReduce（Map+Reduce）提出一个问题：目标：你想数出一摞牌中有多少张黑桃。直观方式：一张一张检查并且数出有多少张是黑桃数目 MapReduce方法则是：给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃，(map) 然后把这个数目汇报给你你把所有玩家告诉阅读全文

posted @ 2017-02-05 18:03 CJZhaoSimons 阅读(738) 评论(0) 推荐(0)

Mr.Zhao

---做好每一件小事

02 2017 档案

公告