飞鸟各投林

导航

随笔分类 -  1Hadoop

Hadoop的IO操作
摘要:Hadoop的API官网:http://hadoop.apache.org/common/docs/current/api/index.html 相关的包 org.apache.hadoop.io org.apache.hadoop.io.compress org.apache.hadoop.io. 阅读全文

posted @ 2016-04-11 23:31 飞鸟各投林 阅读(528) 评论(0) 推荐(0)

Hadoop MapReduce InputFormat基础
摘要:有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。 1 public interface InputFormat<K, V> { 2 InputSplit[] getSplits(Job 阅读全文

posted @ 2016-04-11 23:27 飞鸟各投林 阅读(297) 评论(0) 推荐(0)

虚拟机的设置
摘要:Vmware1: host-only (方式不可以连接外网) Vmware8: NAT (方式可以连接外网) 所以使用Vmware8,关闭Vmware1 密码:root 465213a 密码:chennan 465213a 先以root的(原密码:hadoop)进入后删除原来的hadoop用户 us 阅读全文

posted @ 2016-04-11 22:21 飞鸟各投林 阅读(477) 评论(0) 推荐(0)

Hadoop源码如何查看
摘要:如何查看hadoop源码 1解压hadoop安装压缩文件成为文件夹,再进入解压后的文件夹下的src文件夹,选中core,hdfs,mapred三个文件夹 2打开eclipse新建一个Java工程项目 3将步骤1中的三个文件夹复制到新建的工程的src目录下 此时会出现2个问题:1是因为缺少工程文件的j 阅读全文

posted @ 2016-04-09 23:12 飞鸟各投林 阅读(863) 评论(0) 推荐(0)

Hadoop家族学习路线图-张丹老师
摘要:前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来 阅读全文

posted @ 2016-04-09 21:07 飞鸟各投林 阅读(1114) 评论(0) 推荐(0)

Hadoop应用开发实战案例 第2周 Web日志分析项目 张丹
摘要:课程内容 本文链接: 张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载:https://github.com/bsspirit/maven_hadoop_template 阅读全文

posted @ 2016-04-09 19:19 飞鸟各投林 阅读(1951) 评论(2) 推荐(1)

Hadoop应用开发实战案例 第1周 基本介绍
摘要:数据金字塔与角色 数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联数据挖掘思想来源:假设检验,模式识别,人工智能,机 阅读全文

posted @ 2016-04-09 17:53 飞鸟各投林 阅读(562) 评论(0) 推荐(0)

淘宝分布式数据处理实践
摘要:淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为: 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3.Master:8CPU,48GB内存,SAS Raid。 4.Slave节点异 阅读全文

posted @ 2016-04-08 22:00 飞鸟各投林 阅读(283) 评论(0) 推荐(0)

Hadoop的分布式架构改进与应用
摘要:1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。 虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS 阅读全文

posted @ 2016-04-08 21:52 飞鸟各投林 阅读(355) 评论(0) 推荐(0)

Hadoop十年解读与发展预测
摘要:编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变 阅读全文

posted @ 2016-04-08 18:58 飞鸟各投林 阅读(639) 评论(0) 推荐(0)

吴超老师课程---Hadoop的分布式集群安装
摘要:1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 阅读全文

posted @ 2016-04-07 19:31 飞鸟各投林 阅读(191) 评论(0) 推荐(0)

吴超老师课程---Hadoop的伪分布安装
摘要:1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3关闭防火墙的自动运行 执行命令 chkconfig iptab 阅读全文

posted @ 2016-04-07 19:28 飞鸟各投林 阅读(342) 评论(0) 推荐(0)

Hadoop的eclipse1.1.2插件的安装和配置
摘要:我的集群使用的hadoop版本是hadoop-1.1.2。对应的eclipse版本也是:hadoop-eclipse-plugin-1.1.2_20131021200005 (1)在eclipse的dropins文件夹下建立hadoop-plugin的文件夹,将插件放入里面即可。再次重启eclips 阅读全文

posted @ 2016-04-01 20:33 飞鸟各投林 阅读(397) 评论(0) 推荐(0)

Hadoop集群的配置的主机和IP
摘要:集群配置如下: hadoop 192.168.80.100 hadoop1 192.168.80.101 hadoop2 192.168.80.102 (注:hadoop版本都是hadoop-1.1.2) spark 192.168.80.103 (注:对应的版本为spark-1.2.0-bin-h 阅读全文

posted @ 2016-03-29 10:05 飞鸟各投林 阅读(933) 评论(0) 推荐(0)

关于Hadoop的集群环境下虚拟机采用NAT方式连不上网的解决
摘要:使用虚拟机搭建hadoop集群的时候采用的是NAT方式联网,但是会出现时常掉网的现象,查看后排查了很久也没有发现什么问题。 很可能是Windows下的NAT服务没有开启,这时候尽管虚拟机和主机是在一个网段内也会出现掉网,连不上的额情况 它相当于一个NAT的开关服务器,只有启动的时候才会使虚拟机和主机 阅读全文

posted @ 2016-03-29 09:05 飞鸟各投林 阅读(684) 评论(0) 推荐(0)