03 2013 档案

HBase导入导出
摘要:表blogposts中的数据可以被导出到本地文件系统或者HDFS中。要导出数据到本地文件系统,可以这样做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostspath/to/local/filesystem要导出同一份数据到HDFS中,则这么做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostshdfs://namenode/path/to/hdfs除了导出,也可以导入数据到HBase表中。可以从本地文件系统或者HDFS导入数据。与导 阅读全文

posted @ 2013-03-31 20:31 _Deron_ 阅读(2547) 评论(0) 推荐(0)

hadoop学习笔记(二)hadoop I/O
摘要:数据完整性检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)。并在数据通过一个不可靠地通道进行传输时再次计算校验和,这样就能发现数据是否损坏。当然校验和也是可能损坏的,由于校验和相对于数据小很多,所以损坏的可能性十分小。常见的错误检测码是CRC-32(循环冗余校验),任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节,而CRC-32校验和是4个字节,所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行 阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(477) 评论(0) 推荐(0)

hadoop学习笔记(一)hadoop分布式文件系统
摘要:超大文件;流式数据访问,一次写入多次读取;商用硬件,庞大的集群遇到少部分节点故障时,任然更够继续运行,且用户察觉不到中断;不适合低时间延迟的数据访问,对于低时间延迟的需求,可以考虑hbase;大量小文件的元数据会占用namenode过多的内存资源;hdfs只能有一个writer,写操作总是将数据添加至文件末尾。不支持多个写入者操作,也不支持文件在任意位置修改。HDFS的概念数据块磁盘系统有块的概念,指磁盘进行数据读写的最小单位,一般为512字节;HDFS中的块默认为64M,一个大的文件被划分为多个分块,作为独立的存储单元。注意,HDFS中小于一个块大小的文件不会占据整个块的空间,存储小文件会增 阅读全文

posted @ 2013-03-18 14:44 _Deron_ 阅读(765) 评论(0) 推荐(0)

Hama介绍、安装以开发环境搭建(以备后用)
摘要:一、Hama介绍Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。BSP概念由Valiant(2010图灵奖获得者)在1990年提出,具体参看wikipedia。Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文,在分布式条件下实现了BSP模型。二、Hama安装安装环境:OS: UbuntuJAVA: jdk1.6Hadoop:hadoop-1.0.3安装Hama之前, 阅读全文

posted @ 2013-03-12 19:08 _Deron_ 阅读(2961) 评论(0) 推荐(0)

Hadoop集群新增节点实现方案
摘要:又是一年毕业季,实验室集群维护工作交接的同时又要将两台超算中心的刀片机(感觉有点大材小用了...)加入到集群,特做一个step by step的安装指南,以备后用。1、修改新增机器的机器名,根据资料1,分别用hostname命令修改和直接对/etc/hostname、/etc/hosts文件做了修改,其中hosts包含其他各节点IP地址与机器名的对应关系。(hostname是临时修改,重启后失效。而修改hostname和hosts只有重启之后才生效,由于某些原因不能重启电脑,特做两种操作。)hostname dm62、更新软件源列表信息,根据资料2,使用了163的源,将/etc/apt/sou 阅读全文

posted @ 2013-03-12 19:03 _Deron_ 阅读(402) 评论(0) 推荐(0)

导航