hadoop+hama - 随笔分类 - _Deron_

Hadoop实践

摘要：1.将HDFS中的文本文件读取并以JSON格式转存到MongoDB时，报磁盘不足的异常。实验室的5台计算机的存储空间都在500G以上，就目前存储的数据量来看，完全达不到磁盘接近饱和的状态。通过查看HDFS的web客户端，显示如下：看了一下remaining，发现差别很大，首先想到的balance；其次看出dm5的总存储空间只有0.03TB，完全不正常，再看一下Linux的磁盘使用情况，让我大跌眼镜：根目录的挂载只有9.4G，而HDFS存储数据的文件夹就放在本地磁盘的根目录下，如下图：看到以上内容，应该修改本地存储目录才能解决问题。于是就有了下面的操作，将本地存储文件夹放在大一点的“房子”里：当阅读全文

posted @ 2013-11-19 20:04 _Deron_ 阅读(351) 评论(0) 推荐(0)

MapReduce库类

摘要：Hadoop除了可以让开发人员自行编写map函数和reduce函数，还提供一些常用函数（mapper、reducer和partitioner）的类库，这些类位于org.apache.hadoop.mapred.lib包内，在1.2.1版，该包包含一个接口和若干类。在org.apache.hadoop.mapreduce.lib 包内也存在相关类库，且有部分重复。mapred包内部是旧API，mapreduce包是重构之后的新API，但两者都可以使用。接口如下：InputSampler.SamplerInterface to sample using anInputFormat.类如下：Bina 阅读全文

posted @ 2013-08-07 15:36 _Deron_ 阅读(503) 评论(0) 推荐(0)

Hama——BSP、Graph教程

摘要：1. BSPHama提供纯BSP模型，支持消息传递与全局通信。BSP模型由一系列超步组成，每一个超步包括3个部分： 1）本地计算 2）进程通信 3）障栅同步针对大量的科学计算问题，使用BSP模型可以编写高性能的并行计算算法。通过继承org.apache.hama.bsp.BSP类，创建自己的BSP类。继承类必须实现如下方法： public abstract void bsp(BSPPeer<K1, V1, K2, V2, M extends Writable> peer) throws IOException, SyncException, InterruptedException 阅读全文

posted @ 2013-06-09 15:25 _Deron_ 阅读(1103) 评论(0) 推荐(0)

HBase

摘要：HBase是在HDFS上开发的面向列的分布式数据库，适合的问题空间：在廉价硬件构成的集群上管理超大规模的稀疏表。概念hbase中的表由行和列组成。每一个单元格都是有版本的，即时间戳。单元格的内容是未解释的字节数组。每一个单元格都对应一行和一列。表中的行根据主键进行排序，排序根据字节序进行。行中的列分成列族，列族和列族修饰符中间用冒号（：）隔开，列族必须有可打印的字符组成，列族修饰符则可以是任意字节。一个表的列族必须作为表模式定义的一部分预先给出，但新的列族成员可以随后加入。物理上，所有的列族成员都一起存放在文件系统中。调优和存储都是在列族这个层次上进行的。所以最好使所有的列族成员都有相同的“访阅读全文

posted @ 2013-05-23 17:37 _Deron_ 阅读(335) 评论(0) 推荐(0)

HBase导入导出

摘要：表blogposts中的数据可以被导出到本地文件系统或者HDFS中。要导出数据到本地文件系统，可以这样做：bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostspath/to/local/filesystem要导出同一份数据到HDFS中，则这么做：bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostshdfs://namenode/path/to/hdfs除了导出，也可以导入数据到HBase表中。可以从本地文件系统或者HDFS导入数据。与导阅读全文

posted @ 2013-03-31 20:31 _Deron_ 阅读(2547) 评论(0) 推荐(0)

hadoop学习笔记（二）hadoop I/O

摘要：数据完整性检测数据是否损坏的常见措施是，在数据第一次引入系统时计算校验和（checksum）。并在数据通过一个不可靠地通道进行传输时再次计算校验和，这样就能发现数据是否损坏。当然校验和也是可能损坏的，由于校验和相对于数据小很多，所以损坏的可能性十分小。常见的错误检测码是CRC-32（循环冗余校验），任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节，而CRC-32校验和是4个字节，所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(477) 评论(0) 推荐(0)

hadoop学习笔记（一）hadoop分布式文件系统

摘要：超大文件；流式数据访问，一次写入多次读取；商用硬件，庞大的集群遇到少部分节点故障时，任然更够继续运行，且用户察觉不到中断；不适合低时间延迟的数据访问，对于低时间延迟的需求，可以考虑hbase；大量小文件的元数据会占用namenode过多的内存资源；hdfs只能有一个writer，写操作总是将数据添加至文件末尾。不支持多个写入者操作，也不支持文件在任意位置修改。HDFS的概念数据块磁盘系统有块的概念，指磁盘进行数据读写的最小单位，一般为512字节；HDFS中的块默认为64M，一个大的文件被划分为多个分块，作为独立的存储单元。注意，HDFS中小于一个块大小的文件不会占据整个块的空间，存储小文件会增阅读全文

posted @ 2013-03-18 14:44 _Deron_ 阅读(765) 评论(0) 推荐(0)

Hama介绍、安装以开发环境搭建（以备后用）

摘要：一、Hama介绍Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计算框架，模仿了Google的Pregel。用来处理大规模的科学计算，特别是矩阵和图计算。BSP概念由Valiant（2010图灵奖获得者）在1990年提出，具体参看wikipedia。Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文，在分布式条件下实现了BSP模型。二、Hama安装安装环境：OS: UbuntuJAVA: jdk1.6Hadoop:hadoop-1.0.3安装Hama之前，阅读全文

posted @ 2013-03-12 19:08 _Deron_ 阅读(2957) 评论(0) 推荐(0)

Hadoop集群新增节点实现方案

摘要：又是一年毕业季，实验室集群维护工作交接的同时又要将两台超算中心的刀片机（感觉有点大材小用了...）加入到集群,特做一个step by step的安装指南，以备后用。1、修改新增机器的机器名，根据资料1，分别用hostname命令修改和直接对/etc/hostname、/etc/hosts文件做了修改，其中hosts包含其他各节点IP地址与机器名的对应关系。（hostname是临时修改，重启后失效。而修改hostname和hosts只有重启之后才生效，由于某些原因不能重启电脑，特做两种操作。）hostname dm62、更新软件源列表信息，根据资料2，使用了163的源，将/etc/apt/sou 阅读全文

posted @ 2013-03-12 19:03 _Deron_ 阅读(402) 评论(0) 推荐(0)

_Deron_

随笔分类 - hadoop+hama