简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 43 下一页

2012年4月23日

摘要: Datanode在把数据实际存储之前会验证数据的校验和.client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和.当client从datanode读取数据时,也会检查校验和: 把真实数据的校和合同datanode上的校验和进行比较.每个datanode都保存有一个checksum验证的持久化日志,日志中有当前datanode每个block最后的更新时间.当client成功验证了一个block, 它会告诉datanode, 之后datanode会更新它的日志.保存这些信息有助于检测坏磁盘.除了会在client读取数据时验证block, 每个datan 阅读全文
posted @ 2012-04-23 00:21 ggjucheng 阅读(3765) 评论(0) 推荐(0)

摘要: 读文件的过程客户端(client)用FileSystem的open()函数打开文件DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息。对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。DistributedFileSystem返回FSDataInputStream给客户端,用来读取数据。客户端调用stream的read()函数开始读取数据。DFSInputStream连接保存此文件第一个数据块的最近的数据节点。Data从数据节点读到客户端(client)当此数据块读取完毕时,DFSInputStream关闭和此数据节点的连接,然后连接此文件下一个数 阅读全文
posted @ 2012-04-23 00:06 ggjucheng 阅读(11470) 评论(1) 推荐(1)

2012年4月22日

摘要: mapreduce的一个完整作业流程是怎么样的呢,相信刚接触hadoop,刚写mapreduce的初学者都有很大的困扰,下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html,是我看到的讲MapReduce最好的图。以Hadoop带的wordcount为例子(下面是启动行):hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1 阅读全文
posted @ 2012-04-22 23:58 ggjucheng 阅读(5475) 评论(1) 推荐(0)

摘要: 1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在备份,需要先结束 finalize 它。)2.备份dfs.namenode.dir下文件,同时要备份下hdfs的文件目录的元数据信息:bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log bin/hadoop dfsadmin -report > dfs- 阅读全文
posted @ 2012-04-22 23:06 ggjucheng 阅读(3648) 评论(0) 推荐(1)

摘要: 海量数据 那些年Google公开的大数据领域论文 大数据量,海量数据 处理方法总结 布隆过滤器应用 Google Dremel 原理 – 如何能3秒分析1PB Google Spanner原理- 全球级的分布式数据库 悉数那些“巨型”数据仓库 Hadoop在业... 阅读全文
posted @ 2012-04-22 22:52 ggjucheng 阅读(40665) 评论(11) 推荐(22)

摘要: hadoop对于压缩文件的支持hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。hadoop对每个压缩格式的支持,详细见下表:压缩格式工具算法文件扩展名多文件可分割性DEFLATE无DEFLATE.deflate不不gzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lzo不是如 阅读全文
posted @ 2012-04-22 22:28 ggjucheng 阅读(22977) 评论(1) 推荐(3)

2012年4月18日

摘要: 首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 70M logs/2可以通过命令来更改已经上传的文件的副本数:hadoop fs -setrep -R 3 /查看当前hdfs的副本数hadoop fsck -locationsFSCK started b 阅读全文
posted @ 2012-04-18 01:57 ggjucheng 阅读(10475) 评论(0) 推荐(0)

摘要: 1.修改conf/core-site.xml增加<property> <name>fs.checkpoint.period</name> <value>3600</value> <description>The number of seconds between two periodic checkpoints. </description> </property> <property> <name>fs.checkpoint.size</name> <va 阅读全文
posted @ 2012-04-18 01:43 ggjucheng 阅读(8009) 评论(1) 推荐(0)

摘要: 1.概述光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 snn,还是需要做一些工作的。hadoop的默认配置中让snn进程默认运行在了namenode的那台机器上,但是这样的话,如果这台机器出错,宕机,对恢复HDFS文件系统是很大的灾难,更好的方式是:将 阅读全文
posted @ 2012-04-18 01:39 ggjucheng 阅读(6533) 评论(0) 推荐(1)

摘要: NameNode在启动的时候首先进入安全模式,如果 datanode 丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元 数据 记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。下面这行摘录自NameNode启动时的日志(block上报比例1达到了阀值0.9990)The ratio of re 阅读全文
posted @ 2012-04-18 01:28 ggjucheng 阅读(5867) 评论(0) 推荐(1)

上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 43 下一页