摘要:Hadoop的API官网:http://hadoop.apache.org/common/docs/current/api/index.html 相关的包 org.apache.hadoop.io org.apache.hadoop.io.compress org.apache.hadoop.io.
阅读全文
摘要:有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。 1 public interface InputFormat<K, V> { 2 InputSplit[] getSplits(Job
阅读全文
摘要:Vmware1: host-only (方式不可以连接外网) Vmware8: NAT (方式可以连接外网) 所以使用Vmware8,关闭Vmware1 密码:root 465213a 密码:chennan 465213a 先以root的(原密码:hadoop)进入后删除原来的hadoop用户 us
阅读全文
摘要:如何查看hadoop源码 1解压hadoop安装压缩文件成为文件夹,再进入解压后的文件夹下的src文件夹,选中core,hdfs,mapred三个文件夹 2打开eclipse新建一个Java工程项目 3将步骤1中的三个文件夹复制到新建的工程的src目录下 此时会出现2个问题:1是因为缺少工程文件的j
阅读全文
摘要:前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来
阅读全文
摘要:课程内容 本文链接: 张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载:https://github.com/bsspirit/maven_hadoop_template
阅读全文
摘要:数据金字塔与角色 数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联数据挖掘思想来源:假设检验,模式识别,人工智能,机
阅读全文
摘要:淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为: 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3.Master:8CPU,48GB内存,SAS Raid。 4.Slave节点异
阅读全文
摘要:1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。 虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS
阅读全文
摘要:编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变
阅读全文
摘要:1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文件 1.3
阅读全文
摘要:1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3关闭防火墙的自动运行 执行命令 chkconfig iptab
阅读全文
摘要:我的集群使用的hadoop版本是hadoop-1.1.2。对应的eclipse版本也是:hadoop-eclipse-plugin-1.1.2_20131021200005 (1)在eclipse的dropins文件夹下建立hadoop-plugin的文件夹,将插件放入里面即可。再次重启eclips
阅读全文
摘要:集群配置如下: hadoop 192.168.80.100 hadoop1 192.168.80.101 hadoop2 192.168.80.102 (注:hadoop版本都是hadoop-1.1.2) spark 192.168.80.103 (注:对应的版本为spark-1.2.0-bin-h
阅读全文
摘要:使用虚拟机搭建hadoop集群的时候采用的是NAT方式联网,但是会出现时常掉网的现象,查看后排查了很久也没有发现什么问题。 很可能是Windows下的NAT服务没有开启,这时候尽管虚拟机和主机是在一个网段内也会出现掉网,连不上的额情况 它相当于一个NAT的开关服务器,只有启动的时候才会使虚拟机和主机
阅读全文