Hadoop - 随笔分类 - _Babyface

Hadoop科普文——常见的45个问题解答

摘要：原文链接：Hadoop Interview Questions – Setting up Hadoop Cluster!1.Hadoop集群可以运行的3个模式？单机（本地）模式伪分布式模式全分布式模式2.单机（本地）模式中的注意点？在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。3.伪分布模式中的注意点？伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。4.VM是否可以称为Pseudo？不是，两个阅读全文

posted @ 2014-02-06 16:26 _Babyface 阅读(364) 评论(0) 推荐(0)

Hadoop分析

摘要：深入理解Hadoop集群和网络原文地址http://blog.csdn.net/kickxxx/article/details/8230328本文侧重于Hadoop集群的体系结构和方法，以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群，那么我希望你能写下有价值的评论。Hadoop集群部署时有三个角色：Client machines, Master nodes和Slave nodes。Master nodes负责Hadoop的两个关键功能：数据存储（HDFS）；以及运行在这个数据阅读全文

posted @ 2013-07-30 19:32 _Babyface 阅读(357) 评论(0) 推荐(0)

Hadoop分布式系统解析

摘要：写在前面：由于自己学习Hadoop有一段时间，也结合3本关于分析hadoop的书籍和源码对hadoop进行一定的研究，所以在此情况下讲自己对hadoop的学习情况进行分步的写出来，也算是对之前的总结，以便日后能够举一反三，更深入更完整了解hadoop的各个方面。附一张关于hadoop分布式系统的图出来。分别从下往上开始对hadoop Ecosystem进行总结1、HDFS2、MapReduce3、HBase4、Hive5、ZooKeeper6、Pig7、Sqoop8、ETL Tools --- Kettle在写这个得时候hadoop已经即将发布它的第二版YARN，不禁感叹技术革新之快真是难以想阅读全文

posted @ 2013-07-18 19:47 _Babyface 阅读(222) 评论(0) 推荐(0)

HBase流程分析

摘要：HBase是基于列存储的NoSQL数据库，与现在常见的关系型数据库sql server、Oracle或者mySQL相比它不遵循了ACID结构,它是对传统的SQL的一种补充，它是根据CAP理论而形成的满足一个分布式系统的非关系型数据库。与传统的数据库相比它的优势是能够对数据进行简单的增加或者修改，并能够平滑的伸缩。因此在现在云计算和大数据领域具有广泛的用途，同时也成为Hadoop生态系统中的重要一环。现今NoSQL数据库种类繁多，大致分为四种:(1)、Key/Value键值对存储的数据库 Redis，Berkeley DB(2)、面向列存储的数据库 Cassandra，HB... 阅读全文

posted @ 2013-07-18 19:38 _Babyface 阅读(566) 评论(0) 推荐(0)

MapReduce流程分析

摘要：MapReduce是一个用于大规模数据处理的分布式计算模型，通过Map函数来处理一个Key/value对以便生成一批中间的Key/Value对，再定义一个reduce函数将所有这些中间的、有着相同的Key的values合并起来。例如:map：(k1,v1)→list(k2,v2) reduce：(k2,list(v2))→list(k3,v3)其MapReduce编写的大致模板如下：MapReduce的创建1、Map过程的创建public static class Map extends Mapper{ public void map(K1 k1,V1 v1,Context conte... 阅读全文

posted @ 2013-07-16 21:54 _Babyface 阅读(587) 评论(0) 推荐(0)

HDFS流程分析

摘要：写在前面:关于HDFS的方方面面在网上可以看到很多，因为hadoop算是比较新的技术，所以网上的很多hadoop作者都是在计算机行业叱咤多年的老手，对于hadoop的分析也相对高神，所以最开始时候对于我这个小清新来说简直是如天书一般(尤其是在没有详细了解java语言和linux系统的前提下)，一个简单的操作可能都对我来说是云里雾里。因此在自己慢慢累积后，想从自己理解的角度来分析下hdfs，当然也是在学习前人的基础上自己的总结。HDFS的基础知识:1、HDFS通过流水线形式进行副本文件的复制，当某个客户端向HDFS文件写数据的时候，一开始是写入本地临时文件，假如该文件的Replication因子阅读全文

posted @ 2013-07-11 13:02 _Babyface 阅读(574) 评论(0) 推荐(0)

hadoop相关配置文件参数详细说明

摘要：由于hadoop配置参数众多，所以只能是一点点的累积，持续更新......===============================================================配置conf/core-site.xml参数取值fs.default.name 整个Hadoop文件系统的入口，Hadoop系统所有的节点关于这个文件的配置必须是统一的，在主节点当中namenode必须配置成主机名，不能配置成localhost配置conf/hdfs-site.xml(自定设置hdfs的Configuration)参数取值d... 阅读全文

posted @ 2013-07-10 12:42 _Babyface 阅读(683) 评论(0) 推荐(0)

eclipse下配置hadoop环境

摘要：写在前面：前面讲的是使用命令行进行hadoop执行，但是由于eclipse是java的主要IDE，而hadoop使用java语言开发，所以则在eclipse上配置hadoop环境是非常必要的==============================================================1、复制 hadoop安装目录hadoop-0.20.2/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar到eclipse安装目录下的plugins目录中。2、重启eclipse，配置hadoop installation 阅读全文

posted @ 2013-07-09 21:30 _Babyface 阅读(405) 评论(0) 推荐(0)

eclipse下安装hadoop伪分布式集群

摘要：1、下载JDK，最好是1.6版本之上的，下载jdk-6u38-linux-i586.bin后运行./jdk-6u38-linux-i586.bin，生成/home/download/jdk1.6.0_382、配置java环境变量，打开sudo vim /etc/profile文件，加入如下变量 export JAVA_HOME=/home/download/jdk1.6.0_38 export JRE_HOME=/home/download/jdk1.6.0_38/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/li... 阅读全文

posted @ 2013-07-09 20:51 _Babyface 阅读(367) 评论(0) 推荐(0)

DreamWorks

公告

随笔分类 - Hadoop