04 2016 档案

摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:下载的amazon产品共同采购网络元数据(需FQ下载)http://snap.stanford.edu/data/amazon-meta.html 方案目标: 从数据中提取出每个用户买过哪些商品,根据买过的商品以及 阅读全文
posted @ 2016-04-24 14:50 SnailRen 阅读(493) 评论(0) 推荐(0)
摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:任意数量、格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件中出现了几次,组成倒排索引,格式如下 Ant FaultyWordCount.java : 1 , 阅读全文
posted @ 2016-04-16 21:35 SnailRen 阅读(263) 评论(0) 推荐(0)
摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境,gnuplot, 数据:http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 方案目标: 提供的blog数据是简单的文件请求访问数据 205.189.154.54 - - [ 阅读全文
posted @ 2016-04-16 10:55 SnailRen 阅读(364) 评论(0) 推荐(0)
摘要:“好久没有写这个系列了。其实也有在看,不过觉得一些很基本的都写上来没意思。现在打算的是将整本书看完后,最后整合为一篇blog,筛选出一些平时没有注意到的或者更深入的理解” 在写程序中,字符串String的操作是非常多的。在平时用字符串就只用了一部分特性。这次我们来看看关于字符串主要有哪些操作方式。主 阅读全文
posted @ 2016-04-12 21:51 SnailRen 阅读(213) 评论(0) 推荐(0)
摘要:Hbase是Hadoop生态系统中的NoSql列式数据库。通过Hbase,可以进行数据读写,比较适合Top n场景。Hbase搭建的系统,瓶颈在于硬盘的传输速度。RDBMS一般的瓶颈在于寻道速度。 实验环境: CentOS6.5,Hbase 1.2.0。 一、Hbase下载解压 下载解压后放到任意目 阅读全文
posted @ 2016-04-12 19:18 SnailRen 阅读(290) 评论(0) 推荐(0)
摘要:Hive是hadoop生态环境的组成之一。通过Hive,可以使得直接用SQL操作HDFS。最大的好处就是让熟悉SQL,但是不了解JAVA的数据分析师使用。其机制就是一个将SQL语言转化为MapReduce的映射器。可作为在Hadoop上架设数据仓库的工具。但是最大的缺点是运行比较慢。 Hive的安装 阅读全文
posted @ 2016-04-12 14:21 SnailRen 阅读(251) 评论(0) 推荐(0)
摘要:“使用操作系统环境为CentOS-6.5” Ant使用 Maven使用 “Maven是一个项目管理和综合工具。Maven提供了开发人员构建一个完整的生命周期框架。开发团队可以自动完成项目的基础工具建设,Maven使用标准的目录结构和默认构建生命周期。 在多个开发团队环境时,Maven可以设置按标准在 阅读全文
posted @ 2016-04-05 15:21 SnailRen 阅读(442) 评论(0) 推荐(0)
摘要:“这个系列觉得没必要这么写,不然质量不会高,还是看一段时间,自己提炼吧” 多态,也称作动态绑定,后期绑定,是三个基本特征中非常重要的一个特征。通过多态,可以消除类型之间的耦合关系。同时多态提供了扩展程序的一个很好的机制。 阅读全文
posted @ 2016-04-01 00:41 SnailRen 阅读(117) 评论(0) 推荐(0)