随笔分类 -  hadoop

摘要:1,执行 hdfs dfs -copyFromLocal 命令报错! 解决办法: 关闭防火墙: 永久关闭防火墙: 也可以永久关闭selinux:使用 vim /etc/selinux/config 命令修改/etc/selinux/config 文件 设置“SELINUX=disabled” ,再次 阅读全文
posted @ 2019-01-02 11:35 zhou_jun 阅读(2708) 评论(0) 推荐(0)
摘要:一,环境准备 hadoop 2.8.2 分布式环境(三个节点 安装请参考 hadoop分布式环境安装) hbase 1.2.6 分布式环境(三个节点 ,安装参考hbase分布式环境安装 ) 主节点采用 ubuntu 16.04 桌面版 ,从节... 阅读全文
posted @ 2017-12-27 15:54 zhou_jun 阅读(610) 评论(0) 推荐(0)
摘要:一,环境 主节点一台: ubuntu desktop 16.04 zhoujun 172.16.12.1 从节点(slave)两台:ubuntu server 16.04 hado... 阅读全文
posted @ 2017-12-18 22:33 zhou_jun 阅读(157) 评论(0) 推荐(0)
摘要:为什么要Namenode HA?1. NameNode High Availability即高可用。2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(MR,Hive等)也无法完成。Namenode HA 如何实现... 阅读全文
posted @ 2017-06-18 21:58 zhou_jun 阅读(1706) 评论(0) 推荐(0)
摘要:YARN设计理念与基本架构1,MRv1的局限性:扩展性差,可靠性差,资源利用率低,无法支持多种计算框架2,YARN基本设计思想1)基本框架对比 Hadoop1.0中,JobTracker由资源管理和作业控制两部分组成MRv1的局限性多,正是由于Hado... 阅读全文
posted @ 2017-06-12 14:20 zhou_jun 阅读(952) 评论(0) 推荐(0)
摘要:1, hdfs设计:减少硬件错误的危害,流式数据访问,大规模数据集,简单的一致性模型2,特点:1)移动计算的代价比移动数据的代价低在异构的软硬件平台间的可移植性2)局限性不适合低延迟性数据访问。可使用Hbase解决。不能高效存储小文件。对NameNode压力大。不支持... 阅读全文
posted @ 2017-06-12 14:12 zhou_jun 阅读(306) 评论(0) 推荐(0)
摘要:1,为什么需要hadoop 数据分析者面临的问题 数据日趋庞大,读写都出现性能瓶颈; 用户的应用和分析结果,对实时性和响应时间要求越来越高; 使用的模型越来越复杂,计算量指数... 阅读全文
posted @ 2017-06-12 14:06 zhou_jun 阅读(568) 评论(0) 推荐(0)
摘要:一,NameNode: 1, Namenode是中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名称空间(namespace)以及客户端对文件的访问。 2, 文件操作,Namenode负责文件元数据的操作,DataNode负责处理文件内容... 阅读全文
posted @ 2017-06-02 12:37 zhou_jun 阅读(2654) 评论(0) 推荐(0)
摘要:问题描述:在输入文件中,有多个,其中每个输入文件代表一个学生的各科成绩,其中每行的数据形式为,你需要将每个文件中的每科目的成绩进行统计,然后求平均值。输入文件格式:这里有三个学生:输出文件格式:实例代码:package com.test;import java.io.... 阅读全文
posted @ 2017-05-19 10:54 zhou_jun 阅读(1610) 评论(0) 推荐(0)
摘要:入门训练:WordCount 问题描述:对一个或多个输入文件中的单词进行计数统计,比如一个文件的输入文件如下 输出格式:运行代码实例:package hadoopLearn;import java.io.IOException;import java.net.UR... 阅读全文
posted @ 2017-05-19 10:28 zhou_jun 阅读(892) 评论(0) 推荐(0)
摘要:最近遇到一个问题,不知怎么突然运行hadoop的map程序报错,困扰了我很久,现在来给大家分享分享。。错误信息2017-05-18 21:34:22,104 INFO [main] client.RMProxy (RMProxy.java:createRMProxy... 阅读全文
posted @ 2017-05-18 21:33 zhou_jun 阅读(453) 评论(0) 推荐(0)
摘要:问题:按要求文件名输出结果,比如这里我要求对一个输入文件中的WARN,INFO,ERROR,的信息项进行分析,并分别输入到对应的以WARN,INFO。ERROR和OTHER开头的结果文件中,其中结果文件包含对应的相关信息。输入文件: 输入文件为hadoop的一些... 阅读全文
posted @ 2017-05-14 17:24 zhou_jun 阅读(454) 评论(0) 推荐(0)
摘要:问题一:请使用利用Combiner的方式:根据图示内容编写maprdeuce程序示例程序package com.greate.learn;import java.io.IOException;import java.net.URI;import java.util.S... 阅读全文
posted @ 2017-05-14 17:15 zhou_jun 阅读(425) 评论(0) 推荐(0)
摘要:一,在hadoop中的mapreduce的job提交过程比较繁琐,但掌握job的提交过程是我们进入深入学习的必要。 二,mapreduce的shuffle机制三,Hadoop的HA机制。 阅读全文
posted @ 2017-05-04 22:38 zhou_jun 阅读(217) 评论(0) 推荐(0)
摘要:Hello,大家好 !下面就让我带大家一起来搭建hadoop伪分布式的环境吧!不足的地方请大家多交流。谢谢大家的支持 准备环境: 1, ubuntu系统,(我在16.04测试通过。其他版本请自行测试,可参考官方文档!) 2,最好有网 下面就让我... 阅读全文
posted @ 2017-05-02 10:52 zhou_jun 阅读(279) 评论(0) 推荐(0)