摘要: 由于Hadoop版本混乱多变,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),... 阅读全文
posted @ 2014-10-20 22:25 conbein 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 先介绍几个参数:-c 断点续传(备注:使用断点续传要求服务器支持断点续传),-r 递归下载(目录下的所有文件,包括子目录),-np 递归下载不搜索上层目录,-k 把绝对链接转为相对链接,这样下载之后的网页方便浏览。-L 递归时不进入其他主机,-p 下载网页所需要的所有文件。比如:#wget -c -... 阅读全文
posted @ 2014-10-12 22:23 conbein 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 简单记录下 在CentOS6.2 64bit 下安装avidemux的过程。首先去了http://avidemux.sourceforge.net/ 下下载了2.6.8的源码包,然后安装官方给的安装方法安装:http://avidemux.org/admWiki/doku.php?id=build:... 阅读全文
posted @ 2014-07-10 14:01 conbein 阅读(432) 评论(2) 推荐(1) 编辑
摘要: 首先,要有Linux 64位的安装包,这个要自己编译,编译方法参见我的这篇帖子:http://www.cnblogs.com/conbein/p/3793166.html ,如果实在不想编译,留言发给你具体安装过程可参考:http://blog.csdn.net/gobitan/article/de... 阅读全文
posted @ 2014-06-18 15:30 conbein 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 最近在学习搭建Hadoop,直接从Apache官方网站直接下载最新版本Hadoop2.2,结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。Google了一下发现是因为 hadoop 2.2.0提供的是l... 阅读全文
posted @ 2014-06-17 17:19 conbein 阅读(380) 评论(0) 推荐(0) 编辑
摘要: Sqoop用户手册(英文版):http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html1. 概述本文档主要对SQOOP的使用进行了说明,参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到。2. sqoop-import将数据库表的数据导入到hive中,如果在hive中没有对应的表,则自动生成与数据库表名相同的表。sqoop import –connect jdbc:mysql://localhost:3306/hive –user 阅读全文
posted @ 2014-03-31 16:32 conbein 阅读(1323) 评论(0) 推荐(0) 编辑
摘要: 参考文章地址:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html 中间加入了自己的理解。 一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移,一个决策就是在变化的状态中产生出来的。动态规划常常适用于有重叠子问题和最优子结构性质的问题,其所耗时间往往远少于朴素解法。 二、基本思想与策... 阅读全文
posted @ 2014-03-20 17:09 conbein 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 现在正式开始编写MapReduce程序。1、专利数据集 这里我们使用专利数据集作为hadoop的输入数据。数据集可以从美国国家经济研究局获得:http://www.nber.org/patents/。两个数据集下载地址分别为:http://www.nber.org/patents/acite75_99.zip http://www.nber.org/patents/apat63_99.zip。2、MapReduce程序的基础模板 大多数MapReduce程序的编写都可以依赖于一个模板或其变种,当写程序是,我们将其修改为我们所希望的样子,而不是重新写一个。 我们通过一个简单的例子来给出一个... 阅读全文
posted @ 2013-09-02 20:28 conbein 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 三、读和写 mapreduce的输入数据一般来自较大的文件,通常为GB或TB级。MapReduce的基本处理原则是将输入数据分割成块,这些块可以在计算机上并行处理。块的大小需要权衡,如果太大,则并行粒度就会较大,如果太小,则启动和停止处理每个块所需时间就会占去很大部分执行时间。 1、InputFormat Hadoop分割与读取输入文件的方式被定义在InputFormat借口的一个实现中,TextInputFormat是InputFormat的默认实现,当你想要一次性读取一行数据,而且数据没有确定的键值时,这种数据结构会很有用。 常用InputFormat类如下 要设置相应的In... 阅读全文
posted @ 2013-09-02 18:21 conbein 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1、Mapper 一个类要作为mapper必须实现Mapper接口,并且继承MapReduceBase类。 Mapper负责数据处理阶段,形式为Mapper,Mapper只有一个方法map,用于处理一个单独的key/value对。Hadoop预定义了一些非常有用的Mapper 2、Reducer 一个类要作为Reducer必须实现Reducer接口,并且继承MapReduceBase类。当reducer接受来自各个mapper的输出时,将按照key值对输入数据进行排序,并按照排序结果输出给不同的reducer。 同样,Hadoop预定义了一些非常有用的... 阅读全文
posted @ 2013-08-28 20:35 conbein 阅读(287) 评论(0) 推荐(0) 编辑