逖靖寒 - 博客园

[置顶] 释放你的编程技能与激情--博客园仿真足球竞赛平台预览

摘要：

在这个激情四射的夏季，在这个充满奇迹的2008. 让咱们全中国人骄傲的奥运会正在北京举行，在大家为中国加油，为奥运健儿加油的同时，博客园正在为大家准备一个以程序设计来展现自己编程水平的仿真机器人足球比赛平台:) 阅读全文

posted @ 2008-08-21 10:16 逖靖寒阅读(5326) 评论(50) 推荐(1) 编辑

[置顶] 提高您的联系人查找体验，《Smart Contacts》发布

摘要：下载/Files/gpcuster/SmartContact.rarSmart Contacts说明文档V0.1前言前一段时间，自己装在了一个英文的WM6系统，感觉非常不错，但是有一点让我很不满意，原因就是联系人的查找相当不方便。用过中文系统的朋友都知道，联系人的排列方式是按照ABC的顺序排列的，所以查找起来相对来说比较方便，但是英文系统的排列顺序就不是这样了，所以查找相当不方便。然后我又装了一个... 阅读全文

posted @ 2008-02-22 13:40 逖靖寒阅读(4115) 评论(53) 推荐(1) 编辑

Solr分布式搜索技术实现分析

摘要：概述Solr单机支持的搜索数据量是有一定上限的，这个取决于搜索的复杂程度，服务器的硬件配置与业务的要求等等，所以将搜索功能分布化将是对于大数据搜索的一个必然趋势。Solr从1.3版本开始，自带了分布式搜索（Distributed Search）。这个功能使得Solr能够通过多服务器进行横行扩展，对数据进行水平拆分，从而支持海量数据的搜索功能。Solr-3.6.1版本对分布式搜索的支持功能如下：搜索功能模块是否支持分布式搜索Query componentYFacet componentYHighlighting componentYSpell Check ComponentYTerms Comp 阅读全文

posted @ 2012-10-10 15:17 逖靖寒阅读(9317) 评论(4) 推荐(1) 编辑

使用YCSB对HBase进行测试

摘要： YCSB介绍YCSB（Yahoo! Cloud Serving Benchmark）是雅虎开源的一款通用的性能测试工具。通过这个工具我们可以对各类NoSQL产品进行相关的性能测试，包括：PNUTSBigTableHBaseHypertableAzureCassandraCouchDBVoldemortMongoDbDynomite关于YCSB的相关说明可以参考：Getting StartedRunning a WorkloadAdding a DatabaseYCSB与HBase自带的性能测试工具（PerformanceEvaluation）相比，好处在于：扩展：进行性能测试的客户端不仅仅只是阅读全文

posted @ 2011-08-16 19:19 逖靖寒阅读(25251) 评论(9) 推荐(3) 编辑

关于HFile的思考

摘要： 0.90.x版本的HBase中的文件是存储在HFile中的。关于HFile文件的详细介绍，可以查看这篇文章：http://www.data-works.org/download/hfile.pdf这篇文章中介绍了以下五点内容：HFile的作用。HFile的格式。HFile的性能。HFile的使用注意事项。HFile的编程接口。HFile中有一个很重要的参数，那就是block size。如果我们写入hfile中的某一个value的值大于block size会怎么样？于是有如下的测试代码： 1: // create local file system 2: FileSystem fs = new 阅读全文

posted @ 2011-07-05 10:01 逖靖寒阅读(4226) 评论(3) 推荐(2) 编辑

《Cassandra实战》CassSeller程序源代码下载

摘要：下载地址：http://files.cnblogs.com/gpcuster/source_code.rar本目录中CassSeller对应的是Cassandra-0.6.x版本的代码CassSeller-0.7对应的是Cassandra-0.7.x版本的代码对于Cassandra-0.6.x版本，打开conf/storage-conf.xml文件，在Keyspace配置项中，新添加一个Keyspace的配置信息，内容如下：<Keyspace Name=”CassSeller”><ColumnFamily Name=”Seller”CompareWith=”UTF8Type” 阅读全文

posted @ 2011-06-18 11:34 逖靖寒阅读(4538) 评论(12) 推荐(1) 编辑

注意你的hosts文件--记一次HBase问题定位

摘要：最近在测试HBase时遇到一个非常奇怪的问题：集群有7台机器，其中1台Master，6台RegionServer。但是Master只能控制其中1台RegionServer，而无法控制其他5台RegionServer。打开master的日志文件，发现以下错误信息：2011-04-22 16:37:21,242 WARN org.apache.hadoop.hbase.master.AssignmentManager: Failed assignment of -ROOT-,,0.70236052 to serverName=hp2,60020,1303461559353, load=(reque 阅读全文

posted @ 2011-04-24 15:34 逖靖寒阅读(17888) 评论(5) 推荐(3) 编辑

HADOOP实践101：在Hadoop集群中添加机器和删除机器

摘要：无论是在Hadoop集群中添加机器和删除机器，都无需停机，整个服务不中断。本次操作之前，Hadoop的集群情况如下：HDFS的机器情况如下：MR的机器情况如下：添加机器在集群的Master机器中，修改$HADOOP_HOME/conf/slaves文件，在其中添加需要加入集群的新机器（hp3）的主机名：hp3hp2dell1dell2dell3dell4然后在Master机器中执行如下命令： $HADOOP_HOME/bin/start-all.sh这样操作完成之后，新的机器就添加到集群中来了。 HDFS集群增加了一台新的机器： MR集群中也新增了一台机器：删除机器不安全的方式由于Hadoo 阅读全文

posted @ 2011-04-12 11:02 逖靖寒阅读(5722) 评论(1) 推荐(3) 编辑

利用Sqoop将数据从数据库导入到HDFS

摘要：基本使用如下面这个shell脚本：#Oracle的连接字符串，其中包含了Oracle的地址，SID，和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123#需要从Oracle中导入的表名oralceTableName=tt#需要从Oracle中导入的表中的字段名columns=AREA_ID,TEAM_NAME#将Oracle中的数据导入到HDFS后的存放路径hdfsPath=apps/as/hive/$oralceTableName# 阅读全文

posted @ 2011-03-01 15:03 逖靖寒阅读(30861) 评论(0) 推荐(2) 编辑

Hadoop的本地库（Native Libraries）介绍

摘要： Hadoop是使用Java语言开发的，但是有一些需求和操作并不适合使用java，所以就引入了本地库（Native Libraries）的概念，通过本地库，Hadoop可以更加高效地执行某一些操作。目前在Hadoop中，本地库应用在文件的压缩上面：zlibgzip在使用这两种压缩方式的时候，Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库。如果加载成功，输出为：DEBUG util.NativeCodeLoader - Trying to load the custom-built native-hadoop library... INFO ut 阅读全文

posted @ 2011-02-17 15:41 逖靖寒阅读(57264) 评论(9) 推荐(6) 编辑

漫谈Hadoop HDFS Balancer

摘要： Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。可见，保证HDFS中的数据平衡是非常重要的。在Hadoop中，包含一个Balancer程序，通过运行这个程序，可以使得HDFS集群达到一个平衡的状态，使用这个程序的命令如下：sh $HADOOP_HOME/bin/start-balancer.sh –t 10%这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值。如果阅读全文

posted @ 2011-02-16 23:50 逖靖寒阅读(20264) 评论(2) 推荐(4) 编辑

分布式实时统计系统--Rainbird

摘要：最近Twitter开发了一款分布式实时统计系统Rainbird。用处Rainbird可以用于实时数据的统计：1 统计网站中每一个页面，域名的点击次数2 内部系统的运行监控（统计被监控服务器的运行状态）3 记录最大值和最小值性能要求作为大型网站的分布式应用，需要具备以下性能：1 极高的写入性能，可以达到100,000的WPS2 非常高的读取性能，可以达到10,000s的RPS3 高度的可扩展性，包括读取和存储等等，能够扩展到100+ TB的量级4 读取速度响应间隔短，绝大多数的读取速度应该不超过100ms系统组件Rainbird一款基于Zookeeper, Cassandra,Scribe, T 阅读全文

posted @ 2011-02-06 14:26 逖靖寒阅读(11449) 评论(3) 推荐(6) 编辑

逖靖寒的世界

导航

公告