Elwin.Y

hadoop HDFS 写入吞吐量

摘要：最近一个项目在大把大把的使用hadoop-HDFS，关于HDFS 的优势网上都快说烂了，这里不再说了，免得被。。呵呵废话少说，开整1、场景描述：服务器A 监听服务器B分发任务socket。当B 服务器发送指令上传数据，服务器A 便启动HDFSClient 开始从服务器D（FTP服务器）获取数据上传至HADOOP（这里的数据总量大小一般10-100G，单个文件4-15M）2、2、环境：网络：千兆局域网 hadoop版本：1.2.1 硬件环境：略（正规服务器，不扯了）3、问题至于这种数据量大，文件碎小。单线程程序绝对打不满网络（IO 这里绝对不是问题，服务器插着多块磁盘）此处已写... 阅读全文

posted @ 2013-11-22 19:31 Elwin.Y 阅读(2097) 评论(0) 推荐(0)

Hadoop 删除节点步骤

摘要： 1、在hadoop1.1.1/conf 下新建文件 nn-excluded-list并写入要删除的节点名称或者IP 一个节点一行如：mos5200appcmpaknwomrac72、分发nn-excluded-list 文件至各个节点3、上配置 hdfs-site.xml 并新增内容： dfs.hosts.exclude /home/software/hadoop-1.1.1/conf/nn-excluded-list4、执行hadoop dfsadmin -refreshNodes命令，它会在后台进行Block块的移动从移出的Nodes上移动到其它的Nodes上面5. 通过以下2种方式阅读全文

posted @ 2013-11-20 13:30 Elwin.Y 阅读(765) 评论(0) 推荐(0)

Hadoop 中疑问解析

摘要： Hadoop 中疑问解析FAQ问题剖析一、HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型hdfs采用的是master/slave模型，一个hdfs cluster包含一个NameNode和一些列的DataNode，其中NameNode充当的是master的角色，主要负责管理hdfs文件系统，接受来自客户端的请求；DataNode主要是用来存储数据文件，hdfs将一个文件分割成一个或多个的block，这些block可能存储在一个DataNode上或者是多个DataNode上.具体实现如下：1. NameNode：基本上等同于Master的地阅读全文

posted @ 2013-11-20 13:25 Elwin.Y 阅读(584) 评论(1) 推荐(0)

Map-Reduce 数的计算

摘要： map数的计算计算分片大小的公式是：goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))totalSize是一个JOB的所有map总的输入大小，即Map input bytes。参数mapred.map.tasks的默认值是2，我们可以更改这个参数的值。计算好了goalSize之后还要确定上限和下限。下限是max {mapred.min.split.size 阅读全文

posted @ 2013-03-06 16:56 Elwin.Y 阅读(375) 评论(0) 推荐(0)

Map/Reduce 工作模式

摘要： Map-Reduce工作模式阅读全文

posted @ 2013-03-06 16:53 Elwin.Y 阅读(301) 评论(0) 推荐(0)

Map/Reduce 介绍

摘要： Map-Reduce工作原理1 client run job2 get new job ID3 copy job resources4 submit job5 initialize job6 retrieve input splits7 heartbeat (return task)8 retrieve job resource9 lunch10 runJobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后，runJob（）将每秒轮询作业的进度，如果发现与上一个记录不同，便把报告显示到控制台。作业完成后，如果成功，就显示作业计数器阅读全文

posted @ 2013-03-06 16:48 Elwin.Y 阅读(517) 评论(0) 推荐(0)

Redis插入性能测试

摘要： Redis插入性能测试（1）测试环境CPUdualcore e5800 X2 3.2Gmemory4GOSSUSE Linux Enterprise Server 11 (x86_64)Clientjedis（2）单值插入Insert :key=(1000000-10000051)vaue=(1000000-10000051)客户端线程插入量耗时（ms）Tps内存（byte）记录容量1123310410307502K91.96M，9642200078byte50100000511821805.45W882.31M, 92516564892byte（3）List插入（50线程插入）key=(1 阅读全文

posted @ 2013-03-03 16:07 Elwin.Y 阅读(1664) 评论(0) 推荐(0)

OOIZE整理笔记

摘要： 1 环境搭建准备hadoop0.20.2jkd1.6.0.38ext-2.2Oozie3.02apache-tomcat-6.0.362 Oozie 介绍Oozie是一种Java Web应用程序，它运行在Java servlet容器——即Tomcat——中，并使用数据库来存储以下内容：工作流定义当前运行的工作流实例，包括实例的状态和变量Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Reduce作业、Pig作业等），其中指定了动作执行的顺序。我们会使用hPDL（一种XML流程定义语言）来描述这个图。hPDL 阅读全文

posted @ 2013-03-03 16:02 Elwin.Y 阅读(1036) 评论(1) 推荐(0)

Hadoop 集群搭建教程

摘要： 1准备篇1.1 服务器10.18.11.130 (master) 机器名：rac110.16.11.253( datanode) 机器名：mos5200app10.18.11.159(datanode) 机器名：rac41.2 JDK 版本Java(TM) SE Runtime Environment (build 1.6.0_35-b10)Java HotSpot(TM) 64-Bit Server VM (build 20.10-b01, mixed mode)版本下载可到oracle官方网站下载下载地址：http://www.oracle.com/technetwork/java/jav 阅读全文

posted @ 2013-03-03 15:43 Elwin.Y 阅读(689) 评论(1) 推荐(0)

公告