Hadoop（随笔） - 随笔分类 - tinylcy

Hadoop生产集群的监视——计数器

摘要：可以在Hadoop作业中插桩计数器来分析其整体运作。在程序中定义不同的计数器，分别累计特定事件的发生次数。对于来自同一个作业所有任务的相同计数器，Hadoop会自动对它们进行求和，以反映整个作业的情况。这些计数器的数值会在JobTracker的Web用户界面中与Hadoop的内部计数器一起显示... 阅读全文

posted @ 2015-07-15 18:06 tinylcy 阅读(834) 评论(0) 推荐(0)

Hadoop 获取Input File的文件名

摘要：写Hadoop程序的时候在Mapper里遇到这个需求，上网查了下，做个记录：public static class MapClass extends MapReduceBase implements Mapper { @Override public... 阅读全文

posted @ 2015-04-01 10:28 tinylcy 阅读(532) 评论(0) 推荐(0)

Mahout的安装与配置

摘要：Mahout是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。下载Maho... 阅读全文

posted @ 2015-03-29 16:28 tinylcy 阅读(259) 评论(0) 推荐(0)

Hadoop基于DistributedCache的复制联结

摘要：上一种方法让所有的数据在网络上重排，然后在许多情况下大部分数据又被丢弃了，如果我们在map阶段就去除不必要的数据，会更有效率。当较小的数据源可以装入mapper的内存时，可以通过将较小的数据源复制到所有的mapper，并在mapper阶段进行联结，以实现效率的极大提高。管理分布式缓存的类为Distr... 阅读全文

posted @ 2015-03-23 16:04 tinylcy 阅读(319) 评论(0) 推荐(0)

Hadoop reduce side join using Datajoin

摘要：我是参照《Hadoop in action》完成示例程序。如果是在eclipse下需要将 hadoop-datajoin-xxx.jar 导入工程的Library中。另外新的API已经不再使用mapper，reducer接口，而Datajoin中DataJoinMapperBase，DataJoin... 阅读全文

posted @ 2015-03-23 10:02 tinylcy 阅读(175) 评论(0) 推荐(0)

基于文件的数据结构：关于MapFile

摘要：MapFile是已经排过序的SequenceFile，它有索引，所以可以按键查找1.MapFile的写操作MapFile的写操作类似于SequenceFile的写操作。新建一个MapFile.Writer实例，然后调用append()方法顺序写入文件内容。如果不按顺序写入，就抛出一个IOExcept... 阅读全文

posted @ 2015-03-10 19:01 tinylcy 阅读(1523) 评论(0) 推荐(0)

基于文件的数据结构：关于SequenceFile

摘要：纯文本不适合记录二进制类型的数据，在这种情况看下，Hadoop的SequenceFile类非常合适，为二进制键值对提供了一种持久的数据结构1.SequenceFile的写操作通过createWriter()静态方法可以创建SequenceFile对象，并返回SequenceFile.Writer实例... 阅读全文

posted @ 2015-03-10 17:23 tinylcy 阅读(1906) 评论(0) 推荐(0)

Hadoop:用API来压缩从标准输入中读取的数据并将其写到标准输出

摘要：codec实现了一种压缩-解压缩算法，在Hadoop中，一个对CompressionCodec接口的实现代表一个codecCompressionCodec接口包含两个函数如果要对写入输出数据流的数据进行压缩，可用createOutputStream(OutputStream out)方法在底层的数据... 阅读全文

posted @ 2015-03-09 17:21 tinylcy 阅读(482) 评论(0) 推荐(0)

Hadoop示例程序wordcount分析

摘要：wordcount作为Hadoop的示例程序，其思想很简洁，但也值得去理解尤其是作为Hadoop菜鸟的我wordcount程序如下：package com.lcy.hadoop.examples;import java.io.IOException;import java.util.StringTo... 阅读全文

posted @ 2015-03-08 00:03 tinylcy 阅读(302) 评论(0) 推荐(0)

显示Hadoop文件系统中的路径的文件信息

摘要：FileSystem的listStatus方法的功能：列出目录中的内容当传入的参数是一个文件时，它会转变成以数组的方式返回长度为1的FileStatus对象当传入的参数是一个目录时，返回0或多个FileStatus对象，表示此目录中包含的文件和目录如果指定一组路径，其执行结果相当于依次轮流传递每条路... 阅读全文

posted @ 2015-03-07 10:36 tinylcy 阅读(495) 评论(0) 推荐(0)

通过FileSystem API读取数据

摘要：参照前面提到的通过Hadoop URL读取数据，有时根本不可能在应用中设置URLStreamHandlerFactory实例，在这种情况下，需要使用FileSystem API来打开一个文件的输入流FIleSystem是一个通用文件系统的API，所以第一步是检索我们需要的文件系统的实例，这里是HDF... 阅读全文

posted @ 2015-03-06 15:50 tinylcy 阅读(1746) 评论(0) 推荐(0)

通过Hadoop URL读取数据

摘要：让Java程序能够识别Hadoop的hdfs URL方案需要一些额外的工作，采用的方法是通过FsUrlStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法。每个Java虚拟机只能调用一次这个方法，因此通常在静态方法中调... 阅读全文

posted @ 2015-03-06 15:25 tinylcy 阅读(837) 评论(0) 推荐(0)

Hadoop分析Tomcat日志Demo实现

摘要：Tomcat日志：127.0.0.1,-,-,[08/May/2014:13:42:40 +0800],GET / HTTP/1.1,200,11444127.0.0.1,-,-,[08/May/2014:13:42:42 +0800],GET /jygl/jaxrs/teachingManage/... 阅读全文

posted @ 2015-03-05 17:37 tinylcy 阅读(1015) 评论(0) 推荐(0)

HDFS文件操作（基本文件命令）

摘要：文件列表命令：如果你想看到所有的字目录，则可以使用Hadoop的lsr命令：在本地的文件系统创建一个名为example.txt的文本文件，用Hadoop的命令put将它从本地文件系统复制到HDFS上去：注意命令最后一个参数是一个句点（.）。这意味着我把文件放入了默认的工作目录，等价于 bin/had... 阅读全文

posted @ 2015-03-04 16:28 tinylcy 阅读(1448) 评论(0) 推荐(0)

Hadoop分布式文件系统：架构和设计

摘要：引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数... 阅读全文

posted @ 2015-03-04 15:16 tinylcy 阅读(256) 评论(0) 推荐(0)

迭代式MapReduce框架介绍

摘要：转载自董的博客1、概述传统的MapReduce框架（见博文：传统MapReduce框架）把一个作业的执行过程分为两个阶段：map和reduce，在map阶段，每个map task读取一个block，并调用map()函数进行处理，然后将结果写到本地磁盘（注意，不是HDFS）上；在reduce阶段，每... 阅读全文

posted @ 2015-03-03 19:16 tinylcy 阅读(929) 评论(0) 推荐(0)

tinylcy

随笔分类 - Hadoop（随笔）

公告