摘要:

在这个激情四射的夏季,在这个充满奇迹的2008.
让咱们全中国人骄傲的奥运会正在北京举行,在大家为中国加油,为奥运健儿加油的同时,博客园正在为大家准备一个以程序设计来展现自己编程水平的仿真机器人足球比赛平台:)
阅读全文
摘要: 下载/Files/gpcuster/SmartContact.rarSmart Contacts说明文档V0.1前言前一段时间,自己装在了一个英文的WM6系统,感觉非常不错,但是有一点让我很不满意,原因就是联系人的查找相当不方便。用过中文系统的朋友都知道,联系人的排列方式是按照ABC的顺序排列的,所以查找起来相对来说比较方便,但是英文系统的排列顺序就不是这样了,所以查找相当不方便。然后我又装了一个...
阅读全文
摘要: YCSB介绍YCSB(Yahoo! Cloud Serving Benchmark)是雅虎开源的一款通用的性能测试工具。通过这个工具我们可以对各类NoSQL产品进行相关的性能测试,包括:PNUTSBigTableHBaseHypertableAzureCassandraCouchDBVoldemortMongoDbDynomite关于YCSB的相关说明可以参考:Getting StartedRunning a WorkloadAdding a DatabaseYCSB与HBase自带的性能测试工具(PerformanceEvaluation)相比,好处在于:扩展:进行性能测试的客户端不仅仅只是
阅读全文
摘要: 0.90.x版本的HBase中的文件是存储在HFile中的。关于HFile文件的详细介绍,可以查看这篇文章:http://www.data-works.org/download/hfile.pdf这篇文章中介绍了以下五点内容:HFile的作用。HFile的格式。HFile的性能。HFile的使用注意事项。HFile的编程接口。HFile中有一个很重要的参数,那就是block size。如果我们写入hfile中的某一个value的值大于block size会怎么样?于是有如下的测试代码: 1: // create local file system 2: FileSystem fs = new
阅读全文
摘要: 下载地址:Windows版本http://www.data-works.org/download/casssellersrc-windows.zipmac版本http://www.data-works.org/download/casssellersrc.zip本目录中CassSeller对应的是Cassandra-0.6.x版本的代码CassSeller-0.7对应的是Cassandra-0.7.x版本的代码对于Cassandra-0.6.x版本,打开conf/storage-conf.xml文件,在Keyspace配置项中,新添加一个Keyspace的配置信息,内容如下:<Keysp
阅读全文
摘要: 最近在测试HBase时遇到一个非常奇怪的问题:集群有7台机器,其中1台Master,6台RegionServer。但是Master只能控制其中1台RegionServer,而无法控制其他5台RegionServer。打开master的日志文件,发现以下错误信息:2011-04-22 16:37:21,242 WARN org.apache.hadoop.hbase.master.AssignmentManager: Failed assignment of -ROOT-,,0.70236052 to serverName=hp2,60020,1303461559353, load=(reque
阅读全文
摘要: 无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。本次操作之前,Hadoop的集群情况如下:HDFS的机器情况如下:MR的机器情况如下:添加机器在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名:hp3hp2dell1dell2dell3dell4然后在Master机器中执行如下命令: $HADOOP_HOME/bin/start-all.sh这样操作完成之后,新的机器就添加到集群中来了。 HDFS集群增加了一台新的机器: MR集群中也新增了一台机器: 删除机器不安全的方式由于Hadoo
阅读全文
摘要: 基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123#需要从Oracle中导入的表名oralceTableName=tt#需要从Oracle中导入的表中的字段名columns=AREA_ID,TEAM_NAME#将Oracle中的数据导入到HDFS后的存放路径hdfsPath=apps/as/hive/$oralceTableName#
阅读全文
摘要: Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面:zlibgzip在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。如果加载成功,输出为:DEBUG util.NativeCodeLoader - Trying to load the custom-built native-hadoop library... INFO ut
阅读全文
摘要: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下:sh $HADOOP_HOME/bin/start-balancer.sh –t 10%这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值。如果
阅读全文
摘要: 最近Twitter开发了一款分布式实时统计系统Rainbird。用处Rainbird可以用于实时数据的统计:1 统计网站中每一个页面,域名的点击次数2 内部系统的运行监控(统计被监控服务器的运行状态)3 记录最大值和最小值性能要求作为大型网站的分布式应用,需要具备以下性能:1 极高的写入性能,可以达到100,000的WPS2 非常高的读取性能,可以达到10,000s的RPS3 高度的可扩展性,包括读取和存储等等,能够扩展到100+ TB的量级4 读取速度响应间隔短,绝大多数的读取速度应该不超过100ms系统组件Rainbird一款基于Zookeeper, Cassandra,Scribe, T
阅读全文
摘要: Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。比如我们遇到的这个Case:执行的命令:hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25出错日志的提示:org.apache.hadoop.fs.ChecksumException: Checksum error: file:tb_steps_url_path_dim.txt at 0at org.apache.hadoop.
阅读全文