Hadoop - 随笔分类 - crr121

利用mapper实现表的连接

摘要：现在有两张表customer和order，需要通过customerid实现customer和order的连接mapperpackage com.cr.JoinMap;import org.apache.hadoop.conf.Configuration;import ... 阅读全文

posted @ 2018-08-19 11:24 crr121 阅读(283) 评论(0) 推荐(0)

reduce端的连接实现

摘要：背景：现在有两张表：customer、order，他们有个共同的cid,需要通过cid实现两张表的连接，并且通过cid进行分组排序思路：首先通过mapper从context里面获取到文件切片，从文件切片中得到路径，从而判断是customer.txt,还是order.t... 阅读全文

posted @ 2018-08-19 11:24 crr121 阅读(180) 评论(0) 推荐(0)

Hadoop高可用high availability 集群配置

摘要：1、为什么配置高可用HA单点故障：在Hadoop2.0.0之前，每个Hadoop集群只有一个namenode节点，一旦该节点发生了故障，那么整个集群将瘫痪掉，只有重新启动该节点，或者重新移动到另外的节点，才能够重新运行该节点，这也就是所谓的单点故障2、HA的原理在同一... 阅读全文

posted @ 2018-02-09 17:11 crr121 阅读(207) 评论(0) 推荐(0)

Could not determine own NN ID in namespace 'mycluster'.

摘要：执行hdfs namenode -bootstrapStandby的时候报错如下java.io.IOException: java.lang.IllegalStateException: Could not determine own NN ID in namespa... 阅读全文

posted @ 2018-02-09 16:08 crr121 阅读(386) 评论(0) 推荐(0)

添加了其他主机的公钥之后还是不能无密登陆到其他主机

摘要：修改authorized_keys的权限为644 阅读全文

posted @ 2018-02-08 17:51 crr121 阅读(176) 评论(0) 推荐(0)

hadoop-daemon.sh 和Hadoop-daemons.sh 的区别

摘要：Hadoop-daemon.sh:用于启动当前节点的进程例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点Hadoop-daemons.sh：用于启动所有节点的进程例如：Hadoop-daemons.sh start datan... 阅读全文

posted @ 2018-02-08 11:18 crr121 阅读(866) 评论(0) 推荐(0)

机架感知配置

摘要：0、hdfs存放副本的策略：先存放一个副本在本地机架的一个节点上，然后将第二个副本存放在本地机架的另外一个节点上，最后将第三个副本存放在不同机架的不同节点上1、配置机架感知Java类package com.cr.rackAware;import org.apache.... 阅读全文

posted @ 2018-02-06 17:52 crr121 阅读(297) 评论(0) 推荐(0)

mapreduce统计数据库中的单词个数

摘要：1、建立数据库表2、导入jar包mysql-connector-java-5.1.38.jar3、创建实体类package com.cr.jdbc;import org.apache.hadoop.io.Writable;import org.apache.hadoo... 阅读全文

posted @ 2018-02-05 19:07 crr121 阅读(475) 评论(0) 推荐(0)

Call From s150/192.168.109.150 to 0.0.0.0:10020 failed on connection exception:

摘要：参考博客：点击打开链接Hadoop连接本地数据库的时候报错Exception in thread "main" java.io.IOException: java.net.ConnectException: Call From s150/192.168.109.150... 阅读全文

posted @ 2018-02-05 19:05 crr121 阅读(616) 评论(0) 推荐(0)

message from server: "Host 'XXXX' is not allowed to connect to this MySQL server"

摘要：环境：mysql5.7.11 + windows10 64位问题现象：使用mysql远程登录命令mysql –uroot –h192.168.1.102 –p时，报错MySQL ERROR 1130 (HY000): Host ‘XXXX’ is not a... 阅读全文

posted @ 2018-02-05 18:47 crr121 阅读(264) 评论(0) 推荐(0)

Hadoop格式化namenode

摘要：格式化的时候需要先删除所有节点的Hadoop的临时缓存目录也就是我们在core-site.xml里面配置的hadoop.tmp.dir 阅读全文

posted @ 2018-02-05 17:53 crr121 阅读(1391) 评论(1) 推荐(0)

解决CentOS7关闭/开启防火墙出现Unit iptables.service failed to load: No such file or directory.

摘要：CentOS7中执行[plain] view plain copy print?service iptables start/stop service iptables start/stop会报错Failed to start iptables.servi... 阅读全文

posted @ 2018-02-02 15:24 crr121 阅读(252) 评论(0) 推荐(0)

自定义分区随机分配解决数据倾斜的问题

摘要：1、第一阶段有三个文本待统计（设置分区的个数为3）package com.cr.skew;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import o... 阅读全文

posted @ 2018-01-19 16:33 crr121 阅读(209) 评论(0) 推荐(0)

二次排序解析

摘要：1、定义组合keypackage com.cr.com.cr.test;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;... 阅读全文

posted @ 2018-01-14 17:03 crr121 阅读(140) 评论(0) 推荐(0)

Hadoop二次排序

摘要：1、实现要求：对年份按照升序排列，对气温进行降序排列2、实现步骤1、定义组合keypackage com.cr.secondarySort;import org.apache.hadoop.io.WritableComparable;import java.io.Da... 阅读全文

posted @ 2018-01-09 23:50 crr121 阅读(102) 评论(0) 推荐(0)

Hadoop采样器实现全排序（报错java.io.EOFException）

摘要：利用采样器，mapreducer自动将数据按照从大到小的顺序，根据数据分布的概率，自动分区到不同的区域，之前我们是手动设置分区的范围，将数据分区到不同的分区点击打开链接下面我们采用Hadoop内置类-全排序分区类进行自动分区1、mapper类package com.c... 阅读全文

posted @ 2018-01-08 12:43 crr121 阅读(245) 评论(0) 推荐(0)

Hadoop全排序

摘要：1、未分区，按照key排序1、mapper，输出都为intwritablepackage com.cr.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Long... 阅读全文

posted @ 2018-01-07 18:23 crr121 阅读(161) 评论(0) 推荐(0)

跟踪wordcount计数器的运行信息

摘要：1、mapper类package com.cr.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.h... 阅读全文

posted @ 2018-01-05 17:27 crr121 阅读(120) 评论(0) 推荐(0)

运行wordcount的时候显示INFO mapreduce.Job: map 0% reduce 0%

摘要：错误提示：[xiaoqiu@s150 /home/xiaoqiu]$ hadoop jar wordcounter.jar com.cr.wordcount.WordcountApp hdfs://s150/user/xiaoqiu/data/wc.txt hdfs:... 阅读全文

posted @ 2018-01-05 16:03 crr121 阅读(1104) 评论(0) 推荐(0)

java.io.IOException: Incompatible clusterIDs

摘要：启动Hadoop集群的时候，所有的datanode启动不了，报错如下java.io.IOException: Incompatible clusterIDs in /home/xiaoqiu/hadoop_tmp/dfs/data:namenode clusterID... 阅读全文

posted @ 2018-01-04 23:24 crr121 阅读(195) 评论(0) 推荐(0)

仰望星空脚踏实地

欢迎关注我的公众号：小秋的博客

随笔分类 - Hadoop

公告

仰望星空 脚踏实地

欢迎关注我的公众号：小秋的博客

随笔分类 - Hadoop

公告

仰望星空脚踏实地