摘要: 通过查看hfile可以看到对hbase中一条记录的修改时间点和当时的值,对于查问题比较方便直接输入 hbase org.apache.hadoop.hbase.io.hfile.HFile就可以看到该命令的帮助信息[baoniu@search0001 ~]$ hbase org.apache.hadoop.hbase.io.hfile.HFile usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-v] -a,--checkfamily Enable family check -b,--p阅读全文
posted @ 2012-05-15 11:04 flying5 阅读(14) 评论(0) 编辑
摘要: linux下的mmap函数是把文件内容映射到一块内存(准确的说是虚拟内存)上,可以把对文件的操作转为对内存的操作,从而可以避免很多lseek()与read()、write()操作,非常适合于操作大文件或者频繁访问的文件。mmap一般的用途有: 1.将某个真实的文件读入内存,可以频繁读写,在必要的时候写回磁盘 2.各进程间可以共享映射区域下面这个例子是实现父子进程间共享内存。#include <sys/mman.h>#include <sys/types.h>#include <fcntl.h>#include <unistd.h>#include阅读全文
posted @ 2012-05-09 20:47 flying5 阅读(28) 评论(0) 编辑
摘要: 最近做的一个全文搜索,用来过滤网页帖子的广告词和敏感词,发现有的网页中文字之间有html标记,导致无法准确的搜索出来。如: 广<strong>告</strong> 于是用python脚本对网页内容进行处理,去除html标签。 发现对一些不规则的标签处理会报错,异常捕获后原样输出。#!/bin/env python# -*- coding: utf-8-*-from HTMLParser import HTMLParserimport sysdef strip_tags(html): result=[] parse=HTMLParser() parse...阅读全文
posted @ 2012-05-09 14:01 flying5 阅读(15) 评论(0) 编辑
摘要: 在学习hbase的过程中,发现了一些比较好的文章,记录在这里。1. 理论:Google论文 Bigtable:一个分布式的结构化数据存储系统[中文版] Bigtable架构Google MapReduce中文版The Google File System中文版2. 基础HBase介绍-淘宝数据平台与产品部-泽远HBase技术介绍-一淘-莫问HBase存储架构 Apache HBase Reference Guide 英文 中文3. 进阶HFile存储格式HLog的结构和生命周期HBase 数据文件在HDFS上的存储HBase 架构101 –预写日志系统 (WAL) HBase源码初探-丹臣详解阅读全文
posted @ 2012-04-17 11:31 flying5 阅读(75) 评论(0) 编辑
摘要: 把遇到的命令都记录下1. iostat 用来显示存储子系统的详细信息,通常用它来监控磁盘 I/O 的情况 http://www.orczhou.com/index.php/2010/03/iostat-detail/ 注意其中显示的iowait指标,表示的是CPU忙还是闲,而不是IO,http://leweiup.com/questions/7472. vmstat 用来监控虚拟内存,内核线程、磁盘、陷阱和 CPU 活动的统计信息 http://hi.baidu.com/zxm_xdl/blog/item/f4af0bb3c7dbf9b5db335a74.html3. free free命令可阅读全文
posted @ 2012-04-12 00:29 flying5 阅读(62) 评论(0) 编辑
摘要: 在学习网上的文章编写自己的shell解释器的时候,接触到了lex与yacc。顺便了解了下。 Lex(LEXical compiler)和yacc(Yet Another Compiler Compiler)这两个工具是经典的词法分析和语法分析工具,在GNU/Linux下面的Lex是flex(fast lexical analyser generator), 而Yacc则是bison。它们都是基于C语言下面的工具,JAVA下lex和yacc的替代是javacc(Java Compiler Compiler ). 参考IBM网站上的教程Yacc 与 Lex 快速入门体验了下:%{ ...阅读全文
posted @ 2012-02-05 16:51 flying5 阅读(51) 评论(0) 编辑
摘要: 一. hadoop中常见的压缩和解压数据格式 随着处理的数据量越来越大,在HDFS中存储压缩数据,不仅能节省集群的存储空间,而且可以减少磁盘io。对于跨集群数据传输来说,更能节约网络带宽。常见的用于hadoop的压缩文件格式有:压缩格式工具算法文件扩展名多文件可分割性DEFLATE*无DEFLATE.deflate不不GzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内bzip2bzip2bzip2.bz2不是LZOlzopLZO.lzo不不 gzip和ZIP是比较通用的压缩方式,在空间和时间的处理上比较平衡。 bzip2的压缩比gzip或ZI...阅读全文
posted @ 2012-01-09 20:23 flying5 阅读(437) 评论(0) 编辑
摘要: 最近代码中经常用到byte数组与java类型的转换,在网上查了些资料,记录在这里: public final static byte[] getBytes(short s, boolean asc) { byte[] buf = new byte[2]; if (asc) for (int i = buf.length - 1; i >= 0; i--) { buf[i] = (byte) (s & 0x00ff); s >>= 8; } else for (int i = 0; i < buf.length; i++) { buf[i] = (byte...阅读全文
posted @ 2011-12-27 01:18 flying5 阅读(80) 评论(0) 编辑
摘要: 最近在编程中遇到了时间与时区相关的问题,整理在这里 我的程序是一个在hadoop上运行的分布式程序,从mysql数据库中取数据,经过处理之后输出一. 基本概念 时区 :time zone 1884年国际经线会议规定,全球按经度分为24个时区,每区各占经度15°。 以本初子午线为中央经线的时区为零时区,由零时区向东、西各分12区,东、西12区都是半时区,共同使用180°经线的地方时。 CST :China Standard Time UTC+8:00 中国标准时间(北京时间),在东八区 UTC :Universal Time Coordinated,世界协调时间,又称世界标.阅读全文
posted @ 2011-12-05 14:54 flying5 阅读(295) 评论(0) 编辑
摘要: 问题:现在有一个mysql的表 promotion ,该表有若干个字段(主键keyid),有两个字段sid和pid的值需要都更新为一个新的uid。这个新uid来自于外部的文本文件uid.txt中。1. 先取出所有的主键keyidecho "use db01;SELECT id FROM promotion WHERE start_time < DATE_ADD(NOW(), INTERVAL 1 DAY) AND end_time> NOW() AND type=3;" | mysql -h10.1.1.1 -uuser -ppassword -P3306 &g阅读全文
posted @ 2011-09-26 00:32 flying5 阅读(71) 评论(0) 编辑