简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 43 下一页

2012年7月25日

摘要: Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析,主要包括下面几个方面:日志处理: Hadoop擅长这个抓住本拉登: 并行计算ETL: 每个人几乎都在做ETL(Extract-Transform-Load)工作 Netezza关于使用Hadoop做ETL任务的看法)使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目更多参考ppt http://t.cn/SZT2fu 阅读全文
posted @ 2012-07-25 17:16 ggjucheng 阅读(2918) 评论(0) 推荐(0)

摘要: 前言使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,需要配置为使用mysql保存hive的元数据。运行hive,可以有以下访问方式:1.hiveserver:hive以thrift服务的服务器形式运行,允许不同的语言编写客户端进行访问,通过thrift,jdbc,odbc连接器和hive服务器与hive通信,这种方式很适合java编程人员通过 阅读全文
posted @ 2012-07-25 16:56 ggjucheng 阅读(11734) 评论(10) 推荐(0)

2012年6月9日

摘要: 捣鼓hadoop有一段时间了,由于工作的内容就是hadoop平台,但是由于开始对hadoop一无所知,必须在网上寻找各种信息学习hadoop,学习的过程中,发现hadoop管理运维的文章,网上还是挺丰富的,但是对于hadoop实现细节这块,很多是源码分析,这对于初学者来讲很是痛苦,包括本人,要了解hadoop实现细节,也必须看源码,实际上,我最开始不是为了读源码,我只是感兴趣hadoop的实现细节,详细运作流程,代码因为是我对某个细节感兴趣,再去仔细阅读了。例如我负责hadoop平台,里面就有重要数据,HDFS与传统的存储不同,一旦namenode丢失数据,会造成不会恢复的灾难,保护这个数据, 阅读全文
posted @ 2012-06-09 21:47 ggjucheng 阅读(1527) 评论(0) 推荐(0)

2012年5月9日

摘要: 1. ftp自动登录批量下载文件。 #####从ftp服务器上的/home/data 到 本地的/home/databackup#####!/bin/bashftp -n<<!open 192.168.1.171user guest 123456binarycd /home/datalcd /home/databackuppromptmget *closebye!2. ftp自动登录上传文件。 ####本地的/home/databackup to ftp服务器上的/home/data#####!/bin/bashftp -n<<!open 192.168.1.171us 阅读全文
posted @ 2012-05-09 09:55 ggjucheng 阅读(75019) 评论(1) 推荐(3)

2012年5月4日

摘要: 环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase:apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false,需要设置为true1)下载hbase 解压到每台服务器的/data/soft 解压root@master:/data/soft# tar zxvf hbase-0.92.0.tar.gz建立软连root@master:/data/soft# ln -s hbase-0.92.0 hbase2)配置... 阅读全文
posted @ 2012-05-04 22:19 ggjucheng 阅读(20126) 评论(0) 推荐(0)

2012年4月26日

摘要: failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task,还经常好奇为什么有的时候task的失败不会影响到整个job的失败,而有的时候就会使整个job的失败,到底failed和killed task对整个job的影响是什么?failed task failed task出现的原因可分为以下几种情况: 1 child task失败,比如map/reduce任务中 阅读全文
posted @ 2012-04-26 23:59 ggjucheng 阅读(5315) 评论(0) 推荐(0)

摘要: 安装环境: 机器 只有一台机器 操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk pig:版本是0.9.2,安装在/usr/local/pig安装步骤:1.下载(1)下载pig:http://www.fightrice.com/mirrors/apache/pig/stable/pig-0.9.2.tar.gz2.安装(1)上传pig安装包到机器上,使用root用户登陆: tar -xvf pig-0.9.2.tar... 阅读全文
posted @ 2012-04-26 14:15 ggjucheng 阅读(1915) 评论(0) 推荐(0)

摘要: 安装环境: 机器 只需要安装一台机器 操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk hive:版本是0.8.1,安装在/usr/local/hive安装步骤:1.下载 下载hive:http://labs.mop.com/apache-mirror/hive/hive-0.8.1/hive-0.8.1.tar.gz2.安装(1)上传hive安装包到机器上,使用root用户登陆: tar -xvf hive-0.8... 阅读全文
posted @ 2012-04-26 14:10 ggjucheng 阅读(27429) 评论(4) 推荐(1)

2012年4月23日

摘要: 在用hadoop的streaming读数据时,如果输入是sequence file,如果用“-inputformatorg.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话,读入的数据显示的话为乱码,其实是因为读入的还是sequence file格式的,包括sequencefile的头信息在内.改为“inputformatorg.apache.hadoop.mapred.SequenceFileAsTextInputFormat”即可正常读取。以下内容摘自其他地方,对inputformat和outputformat的一个粗略的介绍:Hadoo 阅读全文
posted @ 2012-04-23 00:47 ggjucheng 阅读(8338) 评论(1) 推荐(0)

摘要: 一、从Map到ReduceMapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流程的角度来看大概如下:cat input | grep | sort | uniq -c | cat > output# Input -> Map -> Shuffle & Sort -> Reduce -> Output简单的流程图如下:对于Shuffle,简单地说就是将Map的输出通过一定的算法划分到合适的Reducer中进行处理。Sort当然就是对中间的结果进行按key排 阅读全文
posted @ 2012-04-23 00:26 ggjucheng 阅读(1540) 评论(0) 推荐(0)

上一页 1 ··· 29 30 31 32 33 34 35 36 37 ··· 43 下一页