04 2016 档案
摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:下载的amazon产品共同采购网络元数据(需FQ下载)http://snap.stanford.edu/data/amazon-meta.html 方案目标: 从数据中提取出每个用户买过哪些商品,根据买过的商品以及
阅读全文
摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境 数据:任意数量、格式的文本文件(我用的四个.java代码文件) 方案目标: 根据提供的文本文件,提取出每个单词在哪个文件中出现了几次,组成倒排索引,格式如下 Ant FaultyWordCount.java : 1 ,
阅读全文
摘要:环境: Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境,gnuplot, 数据:http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 方案目标: 提供的blog数据是简单的文件请求访问数据 205.189.154.54 - - [
阅读全文
摘要:“好久没有写这个系列了。其实也有在看,不过觉得一些很基本的都写上来没意思。现在打算的是将整本书看完后,最后整合为一篇blog,筛选出一些平时没有注意到的或者更深入的理解” 在写程序中,字符串String的操作是非常多的。在平时用字符串就只用了一部分特性。这次我们来看看关于字符串主要有哪些操作方式。主
阅读全文
摘要:Hbase是Hadoop生态系统中的NoSql列式数据库。通过Hbase,可以进行数据读写,比较适合Top n场景。Hbase搭建的系统,瓶颈在于硬盘的传输速度。RDBMS一般的瓶颈在于寻道速度。 实验环境: CentOS6.5,Hbase 1.2.0。 一、Hbase下载解压 下载解压后放到任意目
阅读全文
摘要:Hive是hadoop生态环境的组成之一。通过Hive,可以使得直接用SQL操作HDFS。最大的好处就是让熟悉SQL,但是不了解JAVA的数据分析师使用。其机制就是一个将SQL语言转化为MapReduce的映射器。可作为在Hadoop上架设数据仓库的工具。但是最大的缺点是运行比较慢。 Hive的安装
阅读全文
摘要:“使用操作系统环境为CentOS-6.5” Ant使用 Maven使用 “Maven是一个项目管理和综合工具。Maven提供了开发人员构建一个完整的生命周期框架。开发团队可以自动完成项目的基础工具建设,Maven使用标准的目录结构和默认构建生命周期。 在多个开发团队环境时,Maven可以设置按标准在
阅读全文
摘要:“这个系列觉得没必要这么写,不然质量不会高,还是看一段时间,自己提炼吧” 多态,也称作动态绑定,后期绑定,是三个基本特征中非常重要的一个特征。通过多态,可以消除类型之间的耦合关系。同时多态提供了扩展程序的一个很好的机制。
阅读全文

浙公网安备 33010602011771号