2012 年 7月 25 日随笔档案 - ggjucheng

Hadoop计算能力调度器应用和配置

摘要：需求公司里有两个部门，一个叫hive，一个叫pig，这两个部门都需要使用公司里的hadoop集群。于是问题来了，因为hadoop默认是FIFO调度的，谁先提交任务，谁先被处理，于是hive部门很担心pig这个部门提交一个耗时的任务，影响了hive的业务，hive希望可以和pig在高峰期时，平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO，但是也有计算容量调度器，这个调度器可以解决上述问题。可以在hadoop里配置三个队列，一个是default，一个是hive，一个是pig。他们的计算容量分别是30%,40%,30%.这样hive和pig这两个部门，分为使用hive和阅读全文

posted @ 2012-07-25 18:41 ggjucheng 阅读(6773) 评论(1) 推荐(1)

Hadoop计算能力调度器算法解析(转)

摘要： 1. 编写目的本文描述了hadoop中的计算能力调度器（Capacity Scheduler）的实现算法，计算能力调度器是由Yahoo贡献的，主要是解决HADOOP-3421中提出的，在调度器上完成HOD（Hadoop On Demand）功能，克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。本文解析的计算能力调度器属于Hadoop 0.20.2。本文组织结构如下：1）编写目的 2）计算能力调度器介绍 3）计算能力调度器算法分析 4）计算能力调度器源代码分析 5）计算能力调度器与公平调度器比较 6）参考资料。2. 计算能力调度器介绍Capacity Scheduler支阅读全文

posted @ 2012-07-25 18:11 ggjucheng 阅读(3150) 评论(0) 推荐(0)

Hadoop的调度器总结(转)

摘要：随着MapReduce的流行，其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中，有一个组件非常重要，那就是调度器，它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为：（1）默认的调度器FIFOHadoop中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。（2）计算能力调度器Capacity Scheduler支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调阅读全文

posted @ 2012-07-25 18:08 ggjucheng 阅读(1959) 评论(0) 推荐(0)

Hadoop在业界的使用情况

摘要：淘宝总容量9.3PB, 利用率77.09%• 总共1100台机器• Master：8CPU(HT)，48G内存，SAS Raid• Slave节点异构– 8CPU/8CPU(HT)– 16G/24G内存– 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD– 12/20 slots• 约18000道作业/天, 扫描数据：约500TB/天• 用户数474人, 用户组38个基于0.19.1• 大量Patch– 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开发• Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容以上阅读全文

posted @ 2012-07-25 18:00 ggjucheng 阅读(2720) 评论(1) 推荐(0)

Hadoop和Hive的数据处理流程

摘要：需求场景:统计每日用户登陆总数每分钟的原始日志内容如下:http://www.blue.com/uid=xxxxxx&ip=xxxxxx假设只有两个字段,uid和ip,其中uid是用户的uid，是用户的唯一标识，ip是用户的登陆ip，每日的记录行数是10亿，要统计出一天用户登陆的总数。处理流程建表那么我们首先要在hive里建表，建表语句如下:CREATE TABLE login ( uid STRING, ip STRING)PARTITIONED BY (dt STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STO 阅读全文

posted @ 2012-07-25 17:49 ggjucheng 阅读(9177) 评论(4) 推荐(0)

hadoop部署注意项

摘要： namenode磁盘: sas带RAID,多磁盘存储文件系统元信息.datanode配置: 不带RAID, 双网卡: 一个用于内部数据传输，一个用于外部数据传输.hadoop各节点的分布:namenode和jobtracker部署:namenode与jobtracker分离.tasktracker与datanode配对.Trash: hadoop回收站功能默认是禁止的，删除文件，就是直接删除了,所以要记得配置好trash。trash功能还是不错的，当rm后，它会move到当前文件夹下的.Trash目录下,误删文件后，可以到对应的.Trash目录下恢复文件，参考配置属性fs.trash.inte 阅读全文

posted @ 2012-07-25 17:37 ggjucheng 阅读(3659) 评论(0) 推荐(0)

Hadoop使用场景(转)

摘要： Hadoop作为大数据存储及计算领域的一颗明星，目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景，并对其进行了深入分析，主要包括下面几个方面：日志处理: Hadoop擅长这个抓住本拉登: 并行计算ETL: 每个人几乎都在做ETL（Extract-Transform-Load）工作 Netezza关于使用Hadoop做ETL任务的看法)使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目更多参考ppt http://t.cn/SZT2fu 阅读全文

posted @ 2012-07-25 17:16 ggjucheng 阅读(2925) 评论(0) 推荐(0)

hive并发调用的运行方式-个人经验篇

摘要：前言使用hive，我们很多情况下会并发调用hive程序，将sql任务转换成mapreuce提交到hadoop集群中，而在本人使用hive的过程中，发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive，hive是使用derby内存数据库保存hive的元数据，这样是不可以并发调用hive的，需要配置为使用mysql保存hive的元数据。运行hive，可以有以下访问方式:1.hiveserver:hive以thrift服务的服务器形式运行，允许不同的语言编写客户端进行访问，通过thrift，jdbc，odbc连接器和hive服务器与hive通信，这种方式很适合java编程人员通过阅读全文

posted @ 2012-07-25 16:56 ggjucheng 阅读(11739) 评论(10) 推荐(0)

简单，可复制

公告