摘要: 在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法,在末尾指出此办法的性能是不能满足应用要求的,很显然对于如此成熟的HBase来说,高性能获取数据应该不是问题。下面首先简单介绍了搜索引擎的性能,然后详细说明了HBase与MySQL的性能对比,这里的数据都是经过实际的测试获得的。最后,给出了采用多线程批量从HBase中取数据的方案,此方案经过测试要比通过自定义Filter的方式性能高出很多。阅读全文
posted @ 2015-01-23 22:33 王安琪 阅读(3792) 评论(3) 编辑
摘要: 本篇是本人对Solr的使用进行的总结,具体包括使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的性能、以及测试Solr的搜索效率等。 具体的搜索引擎概念、Solr搭建方法、数据库mysql使用方法,假设读者已有了基础。阅读全文
posted @ 2014-05-21 21:20 王安琪 阅读(4513) 评论(21) 编辑
摘要: 关联规则的目的就是在一个数据集中找出项与项之间的关系,适用于在大数量的项集中发现关联共现的项。也被称为购物篮分析 (Market Basket analysis),因为“购物篮分析”很贴切的表达了适用该算法情景中的一个子集。购物网站里你买了一个商品,旁边列出一系列买过该商品的人还买的其他商品,并且按置信度高低排序,一般会发现买手机的还会买充电器(买充电器的人不一定会买手机),买牙刷的还会买牙膏,这大概就是关联规则的用处。关联规则挖掘算法不只是能用在商品销售,使用它我们可以挖掘出更多的关联关系。阅读全文
posted @ 2016-02-02 10:55 王安琪 阅读(1022) 评论(0) 编辑
摘要: “万事皆项目”,这是为我们做PMP培训的姚老师当时说过的一句话,小到一个人在家里烧条鱼,大到国家举办奥运会,都可以以项目对待。做事要有章法,要有目标,事才能竟成。项目大小不同,对待方式也要不同。小事如烧鱼,时间管理、采购管理、质量管理、成本管理等可由你一人把握,虽说你在烧鱼时可能不曾想到这些管理,但它们却是真实存在的。要做一件多人参与的事,如装修房屋,必然要做好与相关人的沟通、采购好需要的资源、规划好做事的步骤等等,可能一位有能力的好领导也能将这些事情管理地井井有条。然而,要做凝聚数十数百甚至更多人智慧的大事,若是还没有这些先进的管理理论做支撑,那就很难做到人尽其才、物尽其用,那么离分崩离析也怕是不远了。阅读全文
posted @ 2016-01-03 23:25 王安琪 阅读(1118) 评论(10) 编辑
摘要: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 HBase(Hadoop Database),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,只能通过Rowkey来取数据,无法进行SQL查询。 因此如果Hive可以从HBase中取数据,并结合Hive的SQL查询功能,便能做到较为复杂的SQL查询操作。 Impala对存储在HDFS、HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。达成目标:1、支持HBase多表联接查询等较复杂的SQL查询操作。阅读全文
posted @ 2015-12-17 10:46 王安琪 阅读(622) 评论(0) 编辑
摘要: 本文先简单介绍了Sqoop和Hive\HBase,然后详细说明了Sqoop的使用方法,最后对当前大数据领域实践提出了自己的一些看法。阅读全文
posted @ 2015-12-08 09:52 王安琪 阅读(2204) 评论(4) 编辑
摘要: 管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是简要对比了当前的类似工具,而后详细记录了以离线方式部署CDH集群的步骤。最后对“讲究”一词提出了自己的观点。阅读全文
posted @ 2015-11-24 09:06 王安琪 阅读(883) 评论(2) 编辑
正文内容加载中...
posted @ 2015-11-03 22:01 王安琪 阅读(564) 评论(0) 编辑
摘要: 我们的目标是:1. 支持Elasticsearch多表联接查询;2. 结合Elasticsearch搜索引擎提高SQL查询效率。Elasticsearch for Apache Hadoop能帮助我们实现这一目标吗?让我们拭目以待!阅读全文
posted @ 2015-11-03 21:36 王安琪 阅读(1323) 评论(5) 编辑
摘要: Deployment and Management of Hadoop clusters need tools, such as Cloudera Manager. In this article, I compare the tools briefly, and then record the step of deploying CDH cluster offline in detail. Finally, I expound the theory of 'handle delicately'.阅读全文
posted @ 2015-10-22 21:56 王安琪 阅读(348) 评论(0) 编辑
摘要: 摘要:世上有三类书籍:1、介绍知识,2、阐述理论,3、工具书;世间也存在两类知识:1、技术,2、思想。以下是我在部署ElasticSearch集群时的经验总结,它们大体属于第一类知识“techknowledge(技术)”。但其中也穿插一些我个人的理解。敬请指正。 关键词:ElasticSearch, 搜索引擎, 集群, 大数据, Solr, 大数据阅读全文
posted @ 2015-10-07 22:26 王安琪 阅读(3494) 评论(6) 编辑
摘要: 如果没写单元测试,如若在branch中对之前代码重构的话,则没有移回trunck上的勇气,有了单元测试,全部运行通过后则有信心合并。互联网公司更是需要重视单元测试,因为版本迭代比较迅速。因此一个好的单元测试框架及一个好的项目质量管理非常重要。本文即是我对这些的心得体会。阅读全文
posted @ 2015-09-01 17:08 王安琪 阅读(662) 评论(8) 编辑