随笔分类 -  hadoop+hama

Hadoop实践
摘要:1.将HDFS中的文本文件读取并以JSON格式转存到MongoDB时,报磁盘不足的异常。实验室的5台计算机的存储空间都在500G以上,就目前存储的数据量来看,完全达不到磁盘接近饱和的状态。通过查看HDFS的web客户端,显示如下:看了一下remaining,发现差别很大,首先想到的balance;其次看出dm5的总存储空间只有0.03TB,完全不正常,再看一下Linux的磁盘使用情况,让我大跌眼镜:根目录的挂载只有9.4G,而HDFS存储数据的文件夹就放在本地磁盘的根目录下,如下图:看到以上内容,应该修改本地存储目录才能解决问题。于是就有了下面的操作,将本地存储文件夹放在大一点的“房子”里:当 阅读全文

posted @ 2013-11-19 20:04 _Deron_ 阅读(351) 评论(0) 推荐(0)

MapReduce库类
摘要:Hadoop除了可以让开发人员自行编写map函数和reduce函数,还提供一些常用函数(mapper、reducer和partitioner)的类库,这些类位于org.apache.hadoop.mapred.lib包内,在1.2.1版,该包包含一个接口和若干类。在org.apache.hadoop.mapreduce.lib 包内也存在相关类库,且有部分重复。mapred包内部是旧API,mapreduce包是重构之后的新API,但两者都可以使用。接口如下:InputSampler.SamplerInterface to sample using anInputFormat.类如下:Bina 阅读全文

posted @ 2013-08-07 15:36 _Deron_ 阅读(503) 评论(0) 推荐(0)

Hama——BSP、Graph教程
摘要:1. BSPHama提供纯BSP模型,支持消息传递与全局通信。BSP模型由一系列超步组成,每一个超步包括3个部分: 1)本地计算 2)进程通信 3)障栅同步针对大量的科学计算问题,使用BSP模型可以编写高性能的并行计算算法。通过继承org.apache.hama.bsp.BSP类,创建自己的BSP类。继承类必须实现如下方法: public abstract void bsp(BSPPeer<K1, V1, K2, V2, M extends Writable> peer) throws IOException, SyncException, InterruptedException 阅读全文

posted @ 2013-06-09 15:25 _Deron_ 阅读(1103) 评论(0) 推荐(0)

HBase
摘要:HBase是在HDFS上开发的面向列的分布式数据库,适合的问题空间:在廉价硬件构成的集群上管理超大规模的稀疏表。概念hbase中的表由行和列组成。每一个单元格都是有版本的,即时间戳。单元格的内容是未解释的字节数组。每一个单元格都对应一行和一列。表中的行根据主键进行排序,排序根据字节序进行。行中的列分成列族,列族和列族修饰符中间用冒号(:)隔开,列族必须有可打印的字符组成,列族修饰符则可以是任意字节。一个表的列族必须作为表模式定义的一部分预先给出,但新的列族成员可以随后加入。物理上,所有的列族成员都一起存放在文件系统中。调优和存储都是在列族这个层次上进行的。所以最好使所有的列族成员都有相同的“访 阅读全文

posted @ 2013-05-23 17:37 _Deron_ 阅读(335) 评论(0) 推荐(0)

HBase导入导出
摘要:表blogposts中的数据可以被导出到本地文件系统或者HDFS中。要导出数据到本地文件系统,可以这样做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostspath/to/local/filesystem要导出同一份数据到HDFS中,则这么做:bin/hbase org.apache.hadoop.hbase.mapreduce.Driverexport blogpostshdfs://namenode/path/to/hdfs除了导出,也可以导入数据到HBase表中。可以从本地文件系统或者HDFS导入数据。与导 阅读全文

posted @ 2013-03-31 20:31 _Deron_ 阅读(2547) 评论(0) 推荐(0)

hadoop学习笔记(二)hadoop I/O
摘要:数据完整性检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)。并在数据通过一个不可靠地通道进行传输时再次计算校验和,这样就能发现数据是否损坏。当然校验和也是可能损坏的,由于校验和相对于数据小很多,所以损坏的可能性十分小。常见的错误检测码是CRC-32(循环冗余校验),任何大小的数据输入均计算得到一个32位的整数校验和。HDFS的数据完整性有io.bytes.per.checksum指定字节的数据计算校验和。默认为512个字节,而CRC-32校验和是4个字节,所以存储校验和的而外开销低于1%每个datanode都持久保存一个校验和日志。datanode会在后台运行 阅读全文

posted @ 2013-03-22 11:43 _Deron_ 阅读(477) 评论(0) 推荐(0)

hadoop学习笔记(一)hadoop分布式文件系统
摘要:超大文件;流式数据访问,一次写入多次读取;商用硬件,庞大的集群遇到少部分节点故障时,任然更够继续运行,且用户察觉不到中断;不适合低时间延迟的数据访问,对于低时间延迟的需求,可以考虑hbase;大量小文件的元数据会占用namenode过多的内存资源;hdfs只能有一个writer,写操作总是将数据添加至文件末尾。不支持多个写入者操作,也不支持文件在任意位置修改。HDFS的概念数据块磁盘系统有块的概念,指磁盘进行数据读写的最小单位,一般为512字节;HDFS中的块默认为64M,一个大的文件被划分为多个分块,作为独立的存储单元。注意,HDFS中小于一个块大小的文件不会占据整个块的空间,存储小文件会增 阅读全文

posted @ 2013-03-18 14:44 _Deron_ 阅读(765) 评论(0) 推荐(0)

Hama介绍、安装以开发环境搭建(以备后用)
摘要:一、Hama介绍Apache Hama是一个纯BSP(Bulk Synchronous Parallel)计算框架,模仿了Google的Pregel。用来处理大规模的科学计算,特别是矩阵和图计算。BSP概念由Valiant(2010图灵奖获得者)在1990年提出,具体参看wikipedia。Google在2009年发表了<Pregel: A System for Large-Scale Graph Processing>论文,在分布式条件下实现了BSP模型。二、Hama安装安装环境:OS: UbuntuJAVA: jdk1.6Hadoop:hadoop-1.0.3安装Hama之前, 阅读全文

posted @ 2013-03-12 19:08 _Deron_ 阅读(2957) 评论(0) 推荐(0)

Hadoop集群新增节点实现方案
摘要:又是一年毕业季,实验室集群维护工作交接的同时又要将两台超算中心的刀片机(感觉有点大材小用了...)加入到集群,特做一个step by step的安装指南,以备后用。1、修改新增机器的机器名,根据资料1,分别用hostname命令修改和直接对/etc/hostname、/etc/hosts文件做了修改,其中hosts包含其他各节点IP地址与机器名的对应关系。(hostname是临时修改,重启后失效。而修改hostname和hosts只有重启之后才生效,由于某些原因不能重启电脑,特做两种操作。)hostname dm62、更新软件源列表信息,根据资料2,使用了163的源,将/etc/apt/sou 阅读全文

posted @ 2013-03-12 19:03 _Deron_ 阅读(402) 评论(0) 推荐(0)

导航