随笔分类 -  Hadoop

1 2 下一页
Hadoop Mapreduce分区、分组、二次排序
摘要:1、MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partition - reduce (3)增加了在本地先进性一次reduce(优化)过程: map - combin(本地 阅读全文
posted @ 2018-08-25 16:16 裸睡的猪
InputFormat的数据划分、Split调度、数据读取
摘要:在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapR 阅读全文
posted @ 2018-08-23 11:08 裸睡的猪
Hadoop2.0 Namenode HA实现方案
摘要:Hadoop2.0 Namenode HA实现方案介绍及汇总 Hadoop2.0 Namenode HA实现方案介绍及汇总 Hadoop2.0 Namenode HA实现方案介绍及汇总 Hadoop2.0 Namenode HA实现方案介绍及汇总 基于社区最新release的Hadoop2.2.0版 阅读全文
posted @ 2018-08-23 10:28 裸睡的猪
单点故障和脑裂
摘要:Hadoop中NameNode单点故障解决方案 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,这里只讨论HDFS的NameNode单点故障的解决方案。 需求 阅读全文
posted @ 2018-08-23 10:26 裸睡的猪
Client将数据读写HDFS流程
摘要:HDFS介绍 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。 什么是分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而 阅读全文
posted @ 2018-08-23 10:22 裸睡的猪
Zookeeper的作用,在Hadoop及hbase中具体作用
摘要:什么是Zookeeper,Zookeeper的作用是什么,在Hadoop及hbase中具体作用是什么 一、什么是Zookeeper ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apach 阅读全文
posted @ 2018-08-23 09:21 裸睡的猪
hadoop 管理命令dfsadmin
摘要:hadoop 管理命令dfsadmin hadoop 管理命令dfsadmin hadoop 管理命令dfsadmin hadoop 管理命令dfsadmin dfsadmin 命令用于管理HDFS集群,这些命令常用于管理员。 1. (Safemode)安全模式 动作 命令 把集群切换到安全模式 b 阅读全文
posted @ 2018-08-22 16:28 裸睡的猪
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么?
摘要:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以 阅读全文
posted @ 2018-08-21 10:43 裸睡的猪
zookeeper选举
摘要:Zookeeper leader选举 Zookeeper leader选举 Zookeeper leader选举 让我们分析如何在ZooKeeper集合中选举leader节点。考虑一个集群中有N个节点。leader选举的过程如下: 所有节点创建具有相同路径 /app/leader_election/ 阅读全文
posted @ 2018-08-10 20:27 裸睡的猪
生态圈安装
摘要:1、etc/profile 2、hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 3、hdfs-site.xml 4、mapred-site.xml 5、yarn-site.xml 6、core-site.xml 7、h 阅读全文
posted @ 2018-07-31 14:55 裸睡的猪
StringTokenizer
摘要:StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。 1.构造函数 public StringTokenizer(String str) public StringTokenizer(String str, String delim) public Stri 阅读全文
posted @ 2018-07-24 15:55 裸睡的猪
mapreduce join
摘要:MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。 如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join 在map阶段, 阅读全文
posted @ 2018-07-21 15:35 裸睡的猪
mapreduce计数器
摘要:1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduc 阅读全文
posted @ 2018-07-21 15:10 裸睡的猪
hadoop分布式系统架构详解
摘要:hadoop 简单来说就是用 java写的分布式 ,处理大数据的框架,主要思想是 “分组合并” 思想。 分组:比如 有一个大型数据,那么他就会将这个数据按照算法分成多份,每份存储在 从属主机上,并且在从属主机上进行计算,主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。 阅读全文
posted @ 2018-07-13 15:40 裸睡的猪
hadoop第一个例子
摘要:Java.io.URL 1、编写java程序 2、打包为javaWrkspace.jar 3、simon@simon-Lenovo-G400:~/software/hadoop$ bin/hadoop jar /home/simon/javaWrkspace/out/artifacts/javaWr 阅读全文
posted @ 2018-06-30 21:59 裸睡的猪
hadoop安装
摘要:下载https://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.9.3.tar.gz 1、配置环境变量 vim /etc/proflie export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64exp 阅读全文
posted @ 2018-06-30 17:39 裸睡的猪
hadoop的缺点
摘要:Hadoop的限制 Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意味着必须搜索整个数据集,即使是最简单的搜索工作。 阅读全文
posted @ 2018-06-25 17:10 裸睡的猪
ubuntu16安装MySQL
摘要:MySQL 是一种开源数据库管理系统,通常作为流行的LAMP(Linux,Apache,MySQL,PHP / Python / Perl)堆栈的一部分安装。它使用关系数据库和SQL(结构化查询语言)来管理其数据。 安装的方式很简单:更新软件包索引,安装mysql-server软件包,然后运行附带的 阅读全文
posted @ 2018-06-23 13:19 裸睡的猪
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
摘要:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 解决方案是在文件hadoop-env.s 阅读全文
posted @ 2018-06-23 12:34 裸睡的猪
pig
摘要:使用 Apache Pig 处理数据 使用 Apache Pig 从大数据集中获得所需的信息 Tim 是我们最受欢迎的撰稿人之一,并且是一位多产撰稿人。浏览 developerWorks 上的 所有 Tim 的文章。查看 Tim 的个人档案 并在 developerWorks 社区中与 Tim、其他 阅读全文
posted @ 2018-06-22 20:26 裸睡的猪

1 2 下一页