1Hadoop - 随笔分类 - 飞鸟各投林

Hadoop的IO操作

摘要：Hadoop的API官网：http：//hadoop.apache.org/common/docs/current/api/index.html 相关的包 org.apache.hadoop.io org.apache.hadoop.io.compress org.apache.hadoop.io. 阅读全文

posted @ 2016-04-11 23:31 飞鸟各投林阅读(538) 评论(0) 推荐(0)

Hadoop MapReduce InputFormat基础

摘要：有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。 1 public interface InputFormat<K, V> { 2 InputSplit[] getSplits(Job 阅读全文

posted @ 2016-04-11 23:27 飞鸟各投林阅读(306) 评论(0) 推荐(0)

虚拟机的设置

摘要：Vmware1: host-only （方式不可以连接外网） Vmware8: NAT （方式可以连接外网）所以使用Vmware8，关闭Vmware1 密码：root 465213a 密码：chennan 465213a 先以root的(原密码:hadoop)进入后删除原来的hadoop用户 us 阅读全文

posted @ 2016-04-11 22:21 飞鸟各投林阅读(480) 评论(0) 推荐(0)

Hadoop源码如何查看

摘要：如何查看hadoop源码 1解压hadoop安装压缩文件成为文件夹，再进入解压后的文件夹下的src文件夹，选中core，hdfs,mapred三个文件夹 2打开eclipse新建一个Java工程项目 3将步骤1中的三个文件夹复制到新建的工程的src目录下此时会出现2个问题：1是因为缺少工程文件的j 阅读全文

posted @ 2016-04-09 23:12 飞鸟各投林阅读(889) 评论(0) 推荐(0)

Hadoop家族学习路线图-张丹老师

摘要：前言使用Hadoop已经有一段时间了，从开始的迷茫，到各种的尝试，到现在组合应用….慢慢地涉及到数据处理的事情，已经离不开hadoop了。Hadoop在大数据领域的成功，更引发了它本身的加速发展。现在Hadoop家族产品，已经达到20个了之多。有必要对自己的知识做一个整理了，把产品和技术都串起来阅读全文

posted @ 2016-04-09 21:07 飞鸟各投林阅读(1127) 评论(0) 推荐(0)

Hadoop应用开发实战案例第2周 Web日志分析项目张丹

摘要：课程内容本文链接：张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载：https://github.com/bsspirit/maven_hadoop_template 阅读全文

posted @ 2016-04-09 19:19 飞鸟各投林阅读(1959) 评论(2) 推荐(1)

Hadoop应用开发实战案例第1周基本介绍

摘要：数据金字塔与角色数据分析使用统计方法，有目的地对收集到的数据进行分析处理，并且解读分析结果数据挖掘数据挖掘是以查找隐藏在数据中的信息为目标的技术，是应用算法从大型数据库中提取知识的过程，这些算法确定信息项之间的隐性关联，并且向用户显示这些关联数据挖掘思想来源：假设检验，模式识别，人工智能，机阅读全文

posted @ 2016-04-09 17:53 飞鸟各投林阅读(563) 评论(0) 推荐(0)

淘宝分布式数据处理实践

摘要：淘宝望目前有会员2亿左右，日均UV高达4000万，日交易量高达数亿元，每天产生大量的数据，所以部署了一个大规模的Hadoop集群，此集群规模为： 1.总容量为9.3PB，利用率77.09%。 2.共有1100台机器。 3.Master：8CPU，48GB内存，SAS Raid。 4.Slave节点异阅读全文

posted @ 2016-04-08 22:00 飞鸟各投林阅读(284) 评论(0) 推荐(0)

Hadoop的分布式架构改进与应用

摘要：1. 背景介绍谈到分布式系统，就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。虽然Google没有开源这三个技术的实现源码，但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品：HDFS 阅读全文

posted @ 2016-04-08 21:52 飞鸟各投林阅读(357) 评论(0) 推荐(0)

Hadoop十年解读与发展预测

摘要：编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变阅读全文

posted @ 2016-04-08 18:58 飞鸟各投林阅读(644) 评论(0) 推荐(0)

吴超老师课程---Hadoop的分布式集群安装

摘要：1.hadoop的分布式安装过程 1.1 分布结构主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 阅读全文

posted @ 2016-04-07 19:31 飞鸟各投林阅读(199) 评论(0) 推荐(0)

吴超老师课程---Hadoop的伪分布安装

摘要：1.1 设置ip地址执行命令 service network restart 验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop 验证: service iptables status1.3关闭防火墙的自动运行执行命令 chkconfig iptab 阅读全文

posted @ 2016-04-07 19:28 飞鸟各投林阅读(345) 评论(0) 推荐(0)

Hadoop的eclipse1.1.2插件的安装和配置

摘要：我的集群使用的hadoop版本是hadoop-1.1.2。对应的eclipse版本也是：hadoop-eclipse-plugin-1.1.2_20131021200005 （1）在eclipse的dropins文件夹下建立hadoop-plugin的文件夹，将插件放入里面即可。再次重启eclips 阅读全文

posted @ 2016-04-01 20:33 飞鸟各投林阅读(400) 评论(0) 推荐(0)

Hadoop集群的配置的主机和IP

摘要：集群配置如下： hadoop 192.168.80.100 hadoop1 192.168.80.101 hadoop2 192.168.80.102 （注：hadoop版本都是hadoop-1.1.2） spark 192.168.80.103 （注：对应的版本为spark-1.2.0-bin-h 阅读全文

posted @ 2016-03-29 10:05 飞鸟各投林阅读(935) 评论(0) 推荐(0)

关于Hadoop的集群环境下虚拟机采用NAT方式连不上网的解决

摘要：使用虚拟机搭建hadoop集群的时候采用的是NAT方式联网，但是会出现时常掉网的现象，查看后排查了很久也没有发现什么问题。很可能是Windows下的NAT服务没有开启，这时候尽管虚拟机和主机是在一个网段内也会出现掉网，连不上的额情况它相当于一个NAT的开关服务器，只有启动的时候才会使虚拟机和主机阅读全文

posted @ 2016-03-29 09:05 飞鸟各投林阅读(686) 评论(0) 推荐(0)

飞鸟各投林

导航

公告

随笔分类 - 1Hadoop