知_卒 - 博客园

实时计算、流式处理系统简介和资料搜集

摘要：实时计算、流式处理系统简介与简单分析一、实时计算一些基本概念http://www.cnblogs.com/panfeng412/archive/2011/10/28/2227195.html二、早期产品1. IBM的StreamBase：StreamBase是IBM开发的一款商业流式计算系统，在金融行业和政府部门使用官方网站：http://www.streambase.com2. Borealis：Brandeis University、Brown University和MIT合作开发的一个分布式流式系统，由之前的流式系统Aurora、Medusa演化而来，学术研究的一个产品，08年已经停止维阅读全文

posted @ 2012-04-27 10:57 知_卒阅读(5844) 评论(0) 推荐(1) 编辑

CHD4B1（hadoop-0.23）实现NameNode HA安装配置

摘要： CHD4B1（hadoop-0.23）实现NameNode HA安装配置 Cloudera CHD4B1版本已经包含了NameNode HA，社区也把NameNode HA branch HDFS-1623 merge到trunk版本，可以实现了双NameNode的热备份，不过目前只支持手动切换，还不支持自动切换，社区中自动切换进度请看：https://issues.apache.org/jira/browse/HDFS-3042NameNode HA（CHD4B1版本）文档：https://ccp.cloudera.com/display/CDH4B1/CDH4+Beta+1+High+A 阅读全文

posted @ 2012-03-14 19:39 知_卒阅读(2917) 评论(0) 推荐(1) 编辑

Hadoop中RPC机制

摘要： Hadoop中RPC机制RPC(Remote Procedure Call Protocol)远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。Hadoop底层的交互都是通过rpc进行的。例如：datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的。下面是rpc交互过程图：1.客服端调用的总过程：Hadoop的RPC客户端代码其实就一个类：org.apache.hadoop.ipc.Client。这个类使用Java的动态代理技术，生成服务阅读全文

posted @ 2012-02-24 21:42 知_卒阅读(641) 评论(0) 推荐(0) 编辑

Jobtracker重启Job recovery过程分析

摘要： Jobtracker重启Job recovery过程分析1.Job Recovery的有关配置项配置项默认值含义mapred.jobtracker.restart.recoverfalsetrue时JT重启之前运行的job可以在jobtracker restart之后恢复，false则需要重新运行。mapred.jobtracker.job.history.block.size3145728保存Job历史日志文件的大小，job的恢复就是使用这些历史日志。hadoop.job.history.location${hadoop.log.dir}/historyJob history存储位置2.Jo 阅读全文

posted @ 2012-02-23 16:01 知_卒阅读(1593) 评论(0) 推荐(0) 编辑

GOON

导航

公告

实时计算、流式处理系统简介和资料搜集

CHD4B1（hadoop-0.23）实现NameNode HA安装配置

Hadoop中RPC机制

Jobtracker重启Job recovery过程分析