Elwin.Y

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2013年11月22日

摘要: 最近一个项目 在大把大把的使用hadoop-HDFS,关于HDFS 的优势网上都快说烂了,这里不再说了,免得被。。 呵呵废话少说,开整1、场景描述: 服务器A 监听 服务器B分发任务socket。当B 服务器发送指令上传数据,服务器A 便启动HDFSClient 开始从服务器D(FTP服务器)获取数据上传至HADOOP(这里的数据总量大小一般10-100G,单个文件4-15M)2、2、环境: 网络:千兆局域网 hadoop版本:1.2.1 硬件环境:略(正规服务器,不扯了)3、问题至于这种数据量大,文件碎小。单线程程序绝对打不满网络(IO 这里绝对不是问题,服务器插着多块磁盘)此处已写... 阅读全文
posted @ 2013-11-22 19:31 Elwin.Y 阅读(2030) 评论(0) 推荐(0) 编辑

2013年11月20日

摘要: 1、在hadoop1.1.1/conf 下新建文件 nn-excluded-list并写入要删除的节点名称或者IP 一个节点 一行如:mos5200appcmpaknwomrac72、分发nn-excluded-list 文件至 各个节点3、 上配置 hdfs-site.xml 并新增内容: dfs.hosts.exclude /home/software/hadoop-1.1.1/conf/nn-excluded-list4、执行hadoop dfsadmin -refreshNodes命令,它会在后台进行Block块的移动从移出的Nodes上移动到其它的Nodes上面5. 通过以下2种方式 阅读全文
posted @ 2013-11-20 13:30 Elwin.Y 阅读(699) 评论(0) 推荐(0) 编辑

摘要: Hadoop 中疑问解析FAQ问题剖析一、HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型hdfs采用的是master/slave模型,一个hdfs cluster包含一个NameNode和一些列的DataNode,其中NameNode充当的是master的角色,主要负责管理hdfs文件系统,接受来自客户端的请求;DataNode主要是用来存储数据文件,hdfs将一个文件分割成一个或多个的block,这些block可能存储在一个DataNode上或者是多个DataNode上.具体实现如下:1. NameNode:基本上等同于Master的地 阅读全文
posted @ 2013-11-20 13:25 Elwin.Y 阅读(538) 评论(1) 推荐(0) 编辑

2013年3月6日

摘要: map数的计算计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))totalSize是一个JOB的所有map总的输入大小,即Map input bytes。参数mapred.map.tasks的默认值是2,我们可以更改这个参数的值。计算好了goalSize之后还要确定上限和下限。下限是max {mapred.min.split.size 阅读全文
posted @ 2013-03-06 16:56 Elwin.Y 阅读(341) 评论(0) 推荐(0) 编辑

摘要: Map-Reduce工作模式 阅读全文
posted @ 2013-03-06 16:53 Elwin.Y 阅读(287) 评论(0) 推荐(0) 编辑

摘要: Map-Reduce工作原理1 client run job2 get new job ID3 copy job resources4 submit job5 initialize job6 retrieve input splits7 heartbeat (return task)8 retrieve job resource9 lunch10 runJobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后,runJob()将每秒轮询作业的进度,如果发现与上一个记录不同,便把报告显示到控制台。作业完成后,如果成功,就显示作业计数器 阅读全文
posted @ 2013-03-06 16:48 Elwin.Y 阅读(469) 评论(0) 推荐(0) 编辑

2013年3月3日

摘要: Redis插入性能测试 (1)测试环境CPUdualcore e5800 X2 3.2Gmemory4GOSSUSE Linux Enterprise Server 11 (x86_64)Clientjedis(2)单值插入Insert :key=(1000000-10000051)vaue=(1000000-10000051)客户端线程插入量耗时(ms)Tps内存(byte)记录容量1123310410307502K91.96M,9642200078byte50100000511821805.45W882.31M, 92516564892byte(3)List插入(50线程插入)key=(1 阅读全文
posted @ 2013-03-03 16:07 Elwin.Y 阅读(1582) 评论(0) 推荐(0) 编辑

摘要: 1 环境搭建准备hadoop0.20.2jkd1.6.0.38ext-2.2Oozie3.02apache-tomcat-6.0.362 Oozie 介绍Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:工作流定义当前运行的工作流实例,包括实例的状态和变量Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。我们会使用hPDL(一种XML流程定义语言)来描述这个图。hPDL 阅读全文
posted @ 2013-03-03 16:02 Elwin.Y 阅读(1008) 评论(1) 推荐(0) 编辑

摘要: 1准备篇1.1 服务器10.18.11.130 (master) 机器名:rac110.16.11.253( datanode) 机器名:mos5200app10.18.11.159(datanode) 机器名:rac41.2 JDK 版本Java(TM) SE Runtime Environment (build 1.6.0_35-b10)Java HotSpot(TM) 64-Bit Server VM (build 20.10-b01, mixed mode)版本下载可到oracle官方网站下载下载地址:http://www.oracle.com/technetwork/java/jav 阅读全文
posted @ 2013-03-03 15:43 Elwin.Y 阅读(656) 评论(1) 推荐(0) 编辑