摘要: 深入剖析阿里巴巴云梯YARN集群发表于2013-12-04 18:21|5558次阅读| 来源《程序员》|9条评论| 作者沈洪《程序员》杂志2013年11月刊HadoopYARNMapReduceHDFS阿里巴巴云梯集群Spark摘要:阿里巴巴是国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。本文将详细介绍阿里巴巴如何充分利用YARN的新特性来构建和完善其多功能分布式集群——云梯YARN集群。阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块 阅读全文
posted @ 2014-01-15 18:00 飘荡小黄鸭 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-01-15 11:04 飘荡小黄鸭 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit lo 阅读全文
posted @ 2014-01-15 10:54 飘荡小黄鸭 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apache的chukwa,linkedin的kafka和cloudera的flume等。2. FaceBook的Sc 阅读全文
posted @ 2014-01-14 21:00 飘荡小黄鸭 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类:并发型模式和线程池模式。用一个图片来整体描述一下:二、设计模式的六大原则1、开闭原则(Open Close Principle)开闭原则就是说对扩展开放,对修改关闭。在程序需要进行拓展的时候,不能去修改原有的代码,实 阅读全文
posted @ 2014-01-14 20:18 飘荡小黄鸭 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 概述我们在搭建趋势云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到兴奋的同时,也不免有些顾虑。大家坐在一起讨论,问题就列了满满一白板。出了问题怎么办,有没有预警机制?有没有可视化的管理界面?管理平台需要自己开发吗?开发难度有多大?有没有开源的管理工具?那么多日志分布在各个机器上,有没有更有效的方法管理?能否生成好的报表?机器宕机,管理员能否收到短信通知?如何做性能调优?扩容升级时,能否给出依据?带着这些问题,我们开始了自己的云计算平台管理和运营之旅,一路走来,收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。图1 云计算平台监控架构在这 阅读全文
posted @ 2014-01-14 17:38 飘荡小黄鸭 阅读(282) 评论(0) 推荐(0) 编辑
摘要: Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。Ambari主要取得了以下成绩:通过一步一步的安装向导简化了集群供应。预先配置好关键的运维指标(metrics),可以直接查看Hadoop Co 阅读全文
posted @ 2014-01-14 17:35 飘荡小黄鸭 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-01-13 19:00 飘荡小黄鸭 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 淘宝数据产品技术架构xiaoyi发表于 2013-07-31 23:49 来源:阿里集团数据平台淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难度并不高;但在“海量”的限定下,数据产品的计算、存储和检索难度陡然上升。本文将以数据魔方为例,向大家介绍淘宝 阅读全文
posted @ 2014-01-13 14:04 飘荡小黄鸭 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 淘宝数据分析工具汇总发表于 2013-10-11 21:40 来源:新浪微博淘宝作为一个电商生态系统,经过多年的耕耘,其数据市场工具也已经相当成熟,淘宝数据市场将淘宝数据分析工具分为选货类、店铺装修类、流量类、店铺经营监控类等九个大类。 阅读全文
posted @ 2014-01-13 13:34 飘荡小黄鸭 阅读(553) 评论(0) 推荐(0) 编辑