随笔档案「2013年3月」 - _Deron_

03 2013 档案

HBase导入导出

摘要：表blogposts中的数据可以被导出到本地文件系统或者HDFS中。要导出数据到本地文件系统，可以这样做：bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostspath/to/local/filesystem要导出同一份数据到HDFS中，则这么做：bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostshdfs://namenode/path/to/hdfs除了导出，也可以导入数据到HBase表中。可以从本地文件系统或者HDFS导入数据。与导阅读全文

posted @ 2013-03-31 20:31 _Deron_ 阅读(2547) 评论(0) 推荐(0)

hadoop学习笔记（二）hadoop I/O

摘要：数据完整性检测数据是否损坏的常见措施是，在数据第一次引入系统时计算校验和（checksum）。并在数据通过一个不可靠地通道进行传输时再次计算校验和，这样就能发现数据是否损坏。当然校验和也是可能损坏的，由于校验和相对于数据小很多，所以损坏的可能性十分小。常见的错误检测码是CRC-32（循环冗余校验），任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节，而CRC-32校验和是4个字节，所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(477) 评论(0) 推荐(0)

hadoop学习笔记（一）hadoop分布式文件系统

摘要：超大文件；流式数据访问，一次写入多次读取；商用硬件，庞大的集群遇到少部分节点故障时，任然更够继续运行，且用户察觉不到中断；不适合低时间延迟的数据访问，对于低时间延迟的需求，可以考虑hbase；大量小文件的元数据会占用namenode过多的内存资源；hdfs只能有一个writer，写操作总是将数据添加至文件末尾。不支持多个写入者操作，也不支持文件在任意位置修改。HDFS的概念数据块磁盘系统有块的概念，指磁盘进行数据读写的最小单位，一般为512字节；HDFS中的块默认为64M，一个大的文件被划分为多个分块，作为独立的存储单元。注意，HDFS中小于一个块大小的文件不会占据整个块的空间，存储小文件会增阅读全文

posted @ 2013-03-18 14:44 _Deron_ 阅读(765) 评论(0) 推荐(0)

Hama介绍、安装以开发环境搭建（以备后用）

摘要：一、Hama介绍Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计算框架，模仿了Google的Pregel。用来处理大规模的科学计算，特别是矩阵和图计算。BSP概念由Valiant（2010图灵奖获得者）在1990年提出，具体参看wikipedia。Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文，在分布式条件下实现了BSP模型。二、Hama安装安装环境：OS: UbuntuJAVA: jdk1.6Hadoop:hadoop-1.0.3安装Hama之前，阅读全文

posted @ 2013-03-12 19:08 _Deron_ 阅读(2961) 评论(0) 推荐(0)

Hadoop集群新增节点实现方案

摘要：又是一年毕业季，实验室集群维护工作交接的同时又要将两台超算中心的刀片机（感觉有点大材小用了...）加入到集群,特做一个step by step的安装指南，以备后用。1、修改新增机器的机器名，根据资料1，分别用hostname命令修改和直接对/etc/hostname、/etc/hosts文件做了修改，其中hosts包含其他各节点IP地址与机器名的对应关系。（hostname是临时修改，重启后失效。而修改hostname和hosts只有重启之后才生效，由于某些原因不能重启电脑，特做两种操作。）hostname dm62、更新软件源列表信息，根据资料2，使用了163的源，将/etc/apt/sou 阅读全文

posted @ 2013-03-12 19:03 _Deron_ 阅读(402) 评论(0) 推荐(0)

_Deron_