摘要: 对于分布式文件系统来说,为了保证数据的高可用性和系统容错能力,往往会把同一数据块在多个节点上进行备份,那么如何分配这些复制数据的位置,不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前,先简单了解一些其它文件系统的放置策略:1. Lustre——一致性哈希环对于不同的数据备份,需要放到不同... 阅读全文
posted @ 2015-03-15 18:52 gisorange 阅读(5269) 评论(0) 推荐(0) 编辑
摘要: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的... 阅读全文
posted @ 2015-03-15 18:51 gisorange 阅读(4071) 评论(0) 推荐(0) 编辑
摘要: 一、问题描述由于namenode 是HDFS的大脑,而这个大脑又是单点,如果大脑出现故障,则整个分布式存储系统就瘫痪了。HA(High Available)机制就是用来解决这样一个问题的。碰到这么个问题,首先本能的想到的就是冗余备份,备份的方式有很多种,前辈们设计的有元数据备份方案,secondar... 阅读全文
posted @ 2015-03-10 23:51 gisorange 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 1. 安全模式HDFS 刚刚启动时,NameNode 会进入安全模式(safe mode)。处于安全模式的NameNode不能做任何的文件操作,甚至内部的副本创建也是不允许的。NameNode 此时需要和各个DataNode 通信,获得DataNode 保存的数据块信息,并对数据块信息进行检查。只有... 阅读全文
posted @ 2015-03-10 23:39 gisorange 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 背景和介绍缓存是计算机里广泛使用的一种技术,对降低读取延迟、网络流量和服务器负载都非常有效,但也带来了一致性(Consistency)的问题。所谓一致就是客户端总能读到最新的数据,使用缓存后有可能服务器端的数据已经被修改,但客户端仍然从缓存中读取陈旧的数据。为了保证一致性,有两种常见的解决办法,第一... 阅读全文
posted @ 2015-03-10 23:33 gisorange 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 1 安装zookeeper1.1 下载 wget http://apache.fayea.com/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz1.2 配置 配置zookeeper参数zoo.cfg,步骤如下: a cp opt/zookeeper-... 阅读全文
posted @ 2015-02-09 13:39 gisorange 阅读(2156) 评论(0) 推荐(0) 编辑
摘要: 不同的互联网公司里面,研发工程师的晋升方式也许各异,但通常会有答辩这个环节,下面列举下我关于工程师答辩的思考: 临场发挥 1. PPT的制作 a. 开篇介绍时,避免“只见树木,不见森林” 开篇介绍项目时,尽管每位同学所做工作属于团队里的一部分,最好能写出团队项目的整体结构,甚至可以突出自己... 阅读全文
posted @ 2014-10-19 12:43 gisorange 阅读(1544) 评论(0) 推荐(0) 编辑
摘要: 一直对zookeeper的应用和原理比较迷糊,今天看一篇文章,讲得很通透,分享如下:场景一有这样一个场景:系统中有大约100w的用户,每个用户平均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从多个不同... 阅读全文
posted @ 2014-08-25 22:59 gisorange 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 今天对一个实时流数据处理服务进行压力测试,很快发生OutOfMemoryError错误,分别记录堆占用大小情况如下: 1. 原系统堆占用大小走势 2. 注释一行log后堆占用走势 发现注释了一行频繁命中的log输出之后,堆占用大小迅速下降和处于平稳状态 3. 线程运行情况 通过查看原系统的业务线程运 阅读全文
posted @ 2014-05-15 18:58 gisorange 阅读(985) 评论(0) 推荐(0) 编辑
摘要: 前段时间和导航部门同事聊天,大致了解了目前公司的路径引擎,发现效率还是很低的。尽管最近几年没从事这方向的工作,但仍很表惊讶。所以分享个人对路网最优路径算法的认识,做个抽象的总结。1 前言 关键字 1.1 路网 网络有很多种如社交网络、互联网络、交通路网等等。但是路网有它自己的特点:1、每个节... 阅读全文
posted @ 2014-03-29 19:44 gisorange 阅读(6344) 评论(1) 推荐(2) 编辑