Hadoop的数据输入的源码解析
摘要:我们知道,任何一个工程项目,最重要的是三个部分:输入,中间处理,输出。今天我们来深入的了解一下我们熟知的Hadoop系统中,输入是如何输入的? 在hadoop中,输入数据都是通过对应的InputFormat类和RecordReader类来实现的,其中InputFormat来实现将对应输入文件进...
阅读全文
Cloudera-Manager修改集群的IP
摘要:1、业务需求说明:由于公司网络进行了整改,随之而来的就是对应的ip网段发生了变化,其中我的hadoop的集群各主机的ip也相应的发生了改变,因此需要对各主机进行修改ip。2、具体操作: 首先停止cdh各组件的服务,修改各主机的ip。修改完后,本以为完事儿了,启动Cloudera Managemen...
阅读全文
Win7下通过eclipse远程连接CDH集群来执行相应的程序以及错误说明
摘要:最近尝试这用用eclipse连接CDH的集群,由于之前尝试过很多次都没连上,有一次发现Cloudera Manager是将连接的端口修改了,所以才导致连接不上CDH的集群,之前Apache hadoop采用的端口是9000和9001,而Cloudera Manager采用的端口是8020端口,于...
阅读全文
如何利用Cloudera Manager来手动安装parcel包
摘要:1、问题的描述: 当你利用Cloudera Manager部署了CDH的集群后,也许随着你的业务需求,你需要对你的就去哪做一些优化,或者扩展之类的,这个时候你可能需要下载安装一些组件。例如,我最近在阅读Cloudera 官方文档的是,看到有一节的内容说到Performance Management...
阅读全文
HDFS中的checkpoint( 检查点 )的问题
摘要:1、问题的描述由于某种原因,需要在原来已经部署了Cloudera CDH集群上重新部署,重新部署之后,启动集群,由于Cloudera Manager 会默认设置dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是1个小时和100...
阅读全文
HDFS中Java的API使用测试
摘要:import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import o...
阅读全文
MapReducer程序调试技巧
摘要:写过程序分布式代码的人都知道,分布式的程序是比较难以调试的,但是也不是不可以调试,对于Hadoop分布式集群来说,在其上面运行的是mapreduce程序,因此,有时候写好了mapreduce程序之后,执行结果发现跟自己想要的结果不一样,但是有没有报错,此时就很难发现问题,查找问题的方法之一就是对...
阅读全文
CDH上执行WordCount的意外和收获
摘要:前面将Cloudera Manager安装到集群上的一台主机后,并通过Cloudera manager安装了hadoop-2.6.0-CDH5.4.4。今日来测试安装的集群是否很够很好的执行mapreduce任务。测试的方法就是测试WordCount的例子。1、在讲测试用例之前,我们首先为系统当...
阅读全文
Coudera-Manager/CDH的安装和部署
摘要:由于之前部署的集群采用的是用apache hadoop的方式来实现,但是考虑到运维的成本问题,下面将apache hadoop转换成cloudera cdh。下面主要讲解一下cloudera cdh的安装过程:Cloudera公司官方网站上介绍了三种安装方式:(官网:http://hpdm.siat...
阅读全文
hadoop版本和位数的查看方法
摘要:目前针对apache hadoop更新的版本较多,由此而产生了两个方面的问题: 1、如何查看运行的集群当中的hadoop的版本的问题。 2、如何查看运行集群当中的hadoop的位数下面详细的介绍一下1、查看版本信息 通过在集群上执行:hadoop version 命令可以查看对应的hadoop...
阅读全文
hadoop生态系统的详细介绍
摘要:1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论...
阅读全文
关于Warn:name or service not known的解决办法
摘要:由于之前搭建起了一个集群,然后直接将相应的配置文件复制过来 , 发现出现了 Warn:name or service not known的问题,导致无法启动datanode。解决的办法就是将salves文件删除,并重新创建一个salves文件即可。
阅读全文
hadoop启动之后出现错误:Retrying connect to server: hadoop/192.168.73.100:9000. Already tried 0 time(s);
摘要:INFO ipc.Client: Retrying connect to server: hadoop/192.168.73.100:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(...
阅读全文
win8系统 host文件无法修改解决之道
摘要:host文件,路径为:C:\windows\system32\drivers\etc\hosts方法/步骤:方法1:用notepad++打开host文件,修改和保存方法2:(1)首先用管理管权限打开DOS程序.win8下同时按住winkey+x键,然后点中菜单中的“命令提示符(管理员)”,打开DOS...
阅读全文
Hadoop c++开发
摘要:假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件...
阅读全文