摘要: 散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函... 阅读全文
posted @ 2015-01-16 20:43 三劫散仙 阅读(998) 评论(0) 推荐(0)
摘要: 初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用w... 阅读全文
posted @ 2015-01-12 21:50 三劫散仙 阅读(370) 评论(0) 推荐(0)
摘要: 最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,... 阅读全文
posted @ 2015-01-07 21:33 三劫散仙 阅读(2071) 评论(0) 推荐(0)
摘要: 近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容... 阅读全文
posted @ 2014-12-31 13:11 三劫散仙 阅读(330) 评论(0) 推荐(0)
摘要: 散仙,在上篇文章对ElasticSearch整体入门作了个介绍,那么本篇我们来看下,如何安装,部署es,以及如何安装es的几个比较常用的插件.es的安装和部署,是非常简单方便的,至少这一点散仙在es和solr之间,能够很明显的体现出来,solr的安装是需要依赖servlet容器,比如jetty,或者... 阅读全文
posted @ 2014-12-29 21:53 三劫散仙 阅读(569) 评论(0) 推荐(0)
摘要: ElasticSearch也是一款非常优秀的开源的全文检索框架,以大名鼎鼎的Apache Lucene为基础,高度封装了更丰富,易用的API,同时与Apache Solr一样,提供了非常强大的分布式集群功能!有不懂ElasticSearch(下文简称es)是干啥的朋友,可以点此链接在百科上先大致了解... 阅读全文
posted @ 2014-12-26 20:57 三劫散仙 阅读(337) 评论(0) 推荐(0)