ggjucheng - 博客园

Hadoop使用场景(转)

摘要： Hadoop作为大数据存储及计算领域的一颗明星，目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景，并对其进行了深入分析，主要包括下面几个方面：日志处理: Hadoop擅长这个抓住本拉登: 并行计算ETL: 每个人几乎都在做ETL（Extract-Transform-Load）工作 Netezza关于使用Hadoop做ETL任务的看法)使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目更多参考ppt http://t.cn/SZT2fu 阅读全文

posted @ 2012-07-25 17:16 ggjucheng 阅读(2925) 评论(0) 推荐(0)

hive并发调用的运行方式-个人经验篇

摘要：前言使用hive，我们很多情况下会并发调用hive程序，将sql任务转换成mapreuce提交到hadoop集群中，而在本人使用hive的过程中，发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive，hive是使用derby内存数据库保存hive的元数据，这样是不可以并发调用hive的，需要配置为使用mysql保存hive的元数据。运行hive，可以有以下访问方式:1.hiveserver:hive以thrift服务的服务器形式运行，允许不同的语言编写客户端进行访问，通过thrift，jdbc，odbc连接器和hive服务器与hive通信，这种方式很适合java编程人员通过阅读全文

posted @ 2012-07-25 16:56 ggjucheng 阅读(11739) 评论(10) 推荐(0)

hadoop的实现-序

摘要：捣鼓hadoop有一段时间了，由于工作的内容就是hadoop平台，但是由于开始对hadoop一无所知，必须在网上寻找各种信息学习hadoop，学习的过程中，发现hadoop管理运维的文章，网上还是挺丰富的，但是对于hadoop实现细节这块，很多是源码分析，这对于初学者来讲很是痛苦，包括本人，要了解hadoop实现细节，也必须看源码，实际上，我最开始不是为了读源码，我只是感兴趣hadoop的实现细节，详细运作流程，代码因为是我对某个细节感兴趣，再去仔细阅读了。例如我负责hadoop平台，里面就有重要数据，HDFS与传统的存储不同，一旦namenode丢失数据，会造成不会恢复的灾难，保护这个数据，阅读全文

posted @ 2012-06-09 21:47 ggjucheng 阅读(1531) 评论(0) 推荐(0)

Linux使用Shell脚本实现ftp的自动上传下载

摘要： 1. ftp自动登录批量下载文件。 #####从ftp服务器上的/home/data 到本地的/home/databackup#####!/bin/bashftp -n<<!open 192.168.1.171user guest 123456binarycd /home/datalcd /home/databackuppromptmget *closebye!2. ftp自动登录上传文件。 ####本地的/home/databackup to ftp服务器上的/home/data#####!/bin/bashftp -n<<!open 192.168.1.171us 阅读全文

posted @ 2012-05-09 09:55 ggjucheng 阅读(75025) 评论(1) 推荐(3)

Hbase配置手册

摘要：环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase：apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false，需要设置为true1）下载hbase 解压到每台服务器的/data/soft 解压root@master:/data/soft# tar zxvf hbase-0.92.0.tar.gz建立软连root@master:/data/soft# ln -s hbase-0.92.0 hbase2）配置... 阅读全文

posted @ 2012-05-04 22:19 ggjucheng 阅读(20130) 评论(0) 推荐(0)

hadoop之failed task和killed task

摘要： failed task可理解为自杀，也就是task本身出了问题而自杀；killed task可理解为是他杀，也就是jobtracker认为这个任务的执行是多余的，所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task，还经常好奇为什么有的时候task的失败不会影响到整个job的失败，而有的时候就会使整个job的失败，到底failed和killed task对整个job的影响是什么？failed task failed task出现的原因可分为以下几种情况： 1 child task失败，比如map/reduce任务中阅读全文

posted @ 2012-04-26 23:59 ggjucheng 阅读(5322) 评论(0) 推荐(0)

pig部署手册

摘要：安装环境: 机器只有一台机器操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk pig:版本是0.9.2,安装在/usr/local/pig安装步骤:1.下载(1)下载pig:http://www.fightrice.com/mirrors/apache/pig/stable/pig-0.9.2.tar.gz2.安装(1)上传pig安装包到机器上,使用root用户登陆: tar -xvf pig-0.9.2.tar... 阅读全文

posted @ 2012-04-26 14:15 ggjucheng 阅读(1918) 评论(0) 推荐(0)

hive部署手册

摘要：安装环境: 机器只需要安装一台机器操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk hive:版本是0.8.1,安装在/usr/local/hive安装步骤:1.下载下载hive:http://labs.mop.com/apache-mirror/hive/hive-0.8.1/hive-0.8.1.tar.gz2.安装(1)上传hive安装包到机器上,使用root用户登陆: tar -xvf hive-0.8... 阅读全文

posted @ 2012-04-26 14:10 ggjucheng 阅读(27434) 评论(4) 推荐(1)

Hadoop开发常用的InputFormat和OutputFormat

摘要：在用hadoop的streaming读数据时，如果输入是sequence file，如果用“-inputformatorg.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话，读入的数据显示的话为乱码，其实是因为读入的还是sequence file格式的，包括sequencefile的头信息在内.改为“inputformatorg.apache.hadoop.mapred.SequenceFileAsTextInputFormat”即可正常读取。以下内容摘自其他地方，对inputformat和outputformat的一个粗略的介绍：Hadoo 阅读全文

posted @ 2012-04-23 00:47 ggjucheng 阅读(8346) 评论(1) 推荐(0)

How MapReduce Works

摘要：一、从Map到ReduceMapReduce其实是分治算法的一种实现，其处理过程亦和用管道命令来处理十分相似，一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代，从处理流程的角度来看大概如下：cat input | grep | sort | uniq -c | cat > output# Input -> Map -> Shuffle & Sort -> Reduce -> Output简单的流程图如下：对于Shuffle，简单地说就是将Map的输出通过一定的算法划分到合适的Reducer中进行处理。Sort当然就是对中间的结果进行按key排阅读全文

posted @ 2012-04-23 00:26 ggjucheng 阅读(1548) 评论(0) 推荐(0)

简单，可复制

公告