简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 43 下一页

2012年8月18日

摘要: 网络 基础 TCP Implementation in Linux: A Brief Tutorial 基于tcpdump实例讲解TCP/IP协议 tcp-ip-状态详解 纳格算法 TCP延迟确认 糊涂窗口综合症 TCP慢启动算法 拥塞避免算法 ... 阅读全文
posted @ 2012-08-18 12:49 ggjucheng 阅读(17686) 评论(1) 推荐(4)

摘要: Linux介绍 Linux入门——个人感想 Google怎么用linux 初入Linux Windows XP硬盘安装Ubuntu 12.04双系统图文详解 实例讲解虚拟机3种网络模式(桥接、nat、Host-only) 在线求助 man page 文件,目录,权限 所有者,群组,其他人 文件的属性 阅读全文
posted @ 2012-08-18 12:47 ggjucheng 阅读(57673) 评论(10) 推荐(26)

摘要: C/C++ 基础 C/C++基本数据类型 C++选择语句 C++循环语句 C++函数 C++指针详解 C/C++ typedef用法 C++ struct,union和enum C++类和对象 C++类复制构造函数 C++继承 C++虚函数 C++运算符重载 C++ Template C++类型转换 C++异常处理 异常不可用于逻辑处理 标准库 C++STL概览 string常用操作 vector常用操作 map常用操作 STL容器迭代过程中删除元素技巧 ST... 阅读全文
posted @ 2012-08-18 12:44 ggjucheng 阅读(21667) 评论(1) 推荐(8)

2012年8月17日

摘要: 前言hadoop比较适合做离线处理,这个是众所周知的,而且hdfs为了保证数据的一致性,每次写文件时,针对数据的io.bytes.per.checksum字节,都会创建一个单独的校验和。默认值为512字节,因为crc-32校验是4字节,存储开销小于1%。而客户端读取数据时,默认会验证数据的crc校验和。除此之外,每个数据节点还会在后台线程运行一个数据块检测程序,定期检查存储在数据节点上的所有块。当块和对应的crc校验匹配不上,由于hdfs存储着块的副本,它可以复制正确的副本替换出错的副本。crc校验的性能损耗可以想到,hdfs都是存储大文件的,每512字节就做一个crc校验,客户端在读写文件都 阅读全文
posted @ 2012-08-17 22:23 ggjucheng 阅读(2885) 评论(0) 推荐(0)

2012年7月25日

摘要: 需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有计算容量调度器,这个调度器可以解决上述问题。可以在hadoop里配置三个队列,一个是default,一个是hive,一个是pig。他们的计算容量分别是30%,40%,30%.这样hive和pig这两个部门,分为使用hive和 阅读全文
posted @ 2012-07-25 18:41 ggjucheng 阅读(6771) 评论(1) 推荐(1)

摘要: 1. 编写目的本文描述了hadoop中的计算能力调度器(Capacity Scheduler)的实现算法,计算能力调度器是由Yahoo贡献的,主要是解决HADOOP-3421中提出的,在调度器上完成HOD(Hadoop On Demand)功能,克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。本文解析的计算能力调度器属于Hadoop 0.20.2。本文组织结构如 下:1)编写目的 2)计算能力调度器介绍 3)计算能力调度器算法分析 4)计算能力调度器源代码分析 5)计算能力调度器与公平调度器比较 6)参考资料。2. 计算能力调度器介绍Capacity Scheduler支 阅读全文
posted @ 2012-07-25 18:11 ggjucheng 阅读(3147) 评论(0) 推荐(0)

摘要: 随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。(2) 计算能力调度器Capacity Scheduler支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调 阅读全文
posted @ 2012-07-25 18:08 ggjucheng 阅读(1954) 评论(0) 推荐(0)

摘要: 淘宝总容量9.3PB, 利用率77.09%• 总共1100台机器• Master:8CPU(HT),48G内存,SAS Raid• Slave节点异构– 8CPU/8CPU(HT)– 16G/24G内存– 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD– 12/20 slots• 约18000道作业/天, 扫描数据:约500TB/天• 用户数474人, 用户组38个基于0.19.1• 大量Patch– 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开发• Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容以上 阅读全文
posted @ 2012-07-25 18:00 ggjucheng 阅读(2717) 评论(1) 推荐(0)

摘要: 需求场景:统计每日用户登陆总数每分钟的原始日志内容如下:http://www.blue.com/uid=xxxxxx&ip=xxxxxx假设只有两个字段,uid和ip,其中uid是用户的uid,是用户的唯一标识,ip是用户的登陆ip,每日的记录行数是10亿,要统计出一天用户登陆的总数。处理流程建表那么我们首先要在hive里建表,建表语句如下:CREATE TABLE login ( uid STRING, ip STRING)PARTITIONED BY (dt STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STO 阅读全文
posted @ 2012-07-25 17:49 ggjucheng 阅读(9172) 评论(4) 推荐(0)

摘要: namenode磁盘: sas带RAID,多磁盘存储文件系统元信息.datanode配置: 不带RAID, 双网卡: 一个用于内部数据传输,一个用于外部数据传输.hadoop各节点的分布:namenode和jobtracker部署:namenode与jobtracker分离.tasktracker与datanode配对.Trash: hadoop回收站功能默认是禁止的,删除文件,就是直接删除了,所以要记得配置好trash。trash功能还是不错的,当rm后,它会move到当前文件夹下的.Trash目录下,误删文件后,可以到对应的.Trash目录下恢复文件,参考配置属性fs.trash.inte 阅读全文
posted @ 2012-07-25 17:37 ggjucheng 阅读(3656) 评论(0) 推荐(0)

上一页 1 ··· 28 29 30 31 32 33 34 35 36 ··· 43 下一页