简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2013年1月20日

摘要: 本文分为4个分部:1. 介绍 2.基本架构 3.与Hive对比 4.使用一、介绍Google的工程师为了方便自己对MapReduce的实现搞了一个叫做Sawzall的工具,Google就放了几篇论文放在网上,但这玩意在代码上不开源在设计思想是开源的,在前面一篇文章中我也提到过Hadoop也推出了类似Sawzall的Pig语言,就是根据Google放出来的论文山寨的。Pig是对处理超大型数据集的抽象层,在MapReduce中的框架中有map和reduce两个函数,如果你亲手弄一个MapReduce实现从编写代码,编译,部署,放在Hadoop上执行这个MapReduce程序还是耗费你一定的时间的, 阅读全文
posted @ 2013-01-20 21:52 ggjucheng 阅读(6098) 评论(0) 推荐(0)

摘要: 前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。本文基于 Cloudera CDH 3u4(同Apache Hadoop 1.0)编写。相关推荐配置为官方推荐值或者笔者经验数值,它不是绝对的,可能会因为不同的应用场景和硬件环境有所出入。1. 选择Cloudera CDH部署你的Cluster动机大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache版 阅读全文
posted @ 2013-01-20 21:36 ggjucheng 阅读(2695) 评论(0) 推荐(1)

摘要: 网站需要具有良好的可伸缩性,来应对不断增长的访问量和数据量。《程序员》杂志5月刊的《可伸缩性的10年探索:知名网站的技术发展历程》一文中介绍了一些Alexa排名较前的网站的技术发展历程,本文将结合提及的Google、Facebook、Twitter等网站的技术发展历程,总结它们在可伸缩性、可用性、高性能以及低成本四点上通常采用的技术。可伸缩可伸缩分为垂直伸缩和水平伸缩两类,垂直伸缩通过升级机器的硬件来解决问题,水平伸缩通过增加机器来解决问题。不同网站在可伸缩上采用了不同的策略。例如,Google完全依赖水平伸缩来解决问题,而其他网站多数是依赖垂直伸缩来解决数据存储问题。垂直伸缩要求软件要能在硬 阅读全文
posted @ 2013-01-20 21:21 ggjucheng 阅读(1290) 评论(0) 推荐(1)

摘要: Instagram团队上个月才迎来第 7 名员工,是的,7个人的团队。作为 iPhone 上最火爆的图片类工具,instagram 用户数量已经超过 1400 万,图片数量超过 1.5 亿张。不得不说,这真他妈是个业界奇迹。几天前,只有三个人的 Instagram 工程师团队发布了一篇文章:What Powers Instagram: Hundreds of Instances, Dozens of Technologies,披露了 Instagram 架构的一些信息,足够勾起大多数人的好奇心。读罢做点笔记,各种线索还是有一定参考价值的。能打开原文的建议直接读原文。Instagram 开发团队 阅读全文
posted @ 2013-01-20 21:18 ggjucheng 阅读(1203) 评论(0) 推荐(0)

摘要: 2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c++,做分布式计算和存储。(到那时才解开了我的一个疑惑:C语言除了用来写HelloWorld,还能干嘛?^_^)。总而言之,网站根据不同的需求,不同的请求压力,不同的业务模型,需要不同的架构来给予支持。我从我的一些经历和感受出发,大体上总结了一下的一些阶段。详情容我慢慢道来。【第一阶段:搭建属于自己的网站】我们最先开始的网站可能是长成这个样子的:拿Java做例子,我们可能会引入struts、spring、h 阅读全文
posted @ 2013-01-20 20:43 ggjucheng 阅读(1446) 评论(0) 推荐(0)

摘要: 当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向定位在互联网应用。这些人里大多数不是很懂技术,或者不是那么精通,而网站开发维护方面的知识又很分散,学习成本太高,所以这篇文章将这些知识点结合起来,系统的来说,一个从日几千访问的小小网站,到日访问一两百万的小网站,中间可能会产生什么问题,以及怎么才能在一开始做足工作尽量避免这些问题。对于不同的初期投资成本,技术路线的选择是不同的。这里假设网站刚刚只是一个构想,计划第一年服务器硬件带宽投入5万左右。对于这个资金额度,有很多种方案可选择,例如租用虚拟主机、租用单独服务器,或者流行的私有云,或者托管服 阅读全文
posted @ 2013-01-20 20:36 ggjucheng 阅读(2212) 评论(0) 推荐(1)

摘要: 互联网架构 百万级访问量网站的技术准备工作 蚂蚁变大象:浅谈常规网站是如何从小变大的 世界知名网站的技术实现 可扩展Web架构与分布式系统 Instagram 架构分析笔记 How Digg is Built:讲述Digg背后的技术 阅读全文
posted @ 2013-01-20 20:33 ggjucheng 阅读(6050) 评论(0) 推荐(0)

摘要: 硬件技术的发展给存储和数据库软件技术提供了新的机会。近年来SSD开始流行,那么SSD能否给Hadoop/HBase带来性能的提升呢?来自Facebook数据团队的工程师们做了相关的研究和实验工作。本文是http://hadoopblog.blogspot.com/2012/05/hadoop-and-solid-state-drives.html(需自备梯子)的翻译并加上了一些自己的思考,版权归原博客作者所有。先说下SSD吧,SSD没有传统机械硬盘的机械寻道时间而带来的延迟,所以IOPS性能可以达到100-200K(而15K的SAS一般在100左右),所以能提供相对于机械硬盘100+倍的的小文 阅读全文
posted @ 2013-01-20 20:16 ggjucheng 阅读(6498) 评论(1) 推荐(0)

摘要: 测试环境,系统信息$uname-aLinux10.**.**.152.6.32-220.17.1.tb619.el6.x86_64#1SMPFriJun813:48:13CST2012x86_64x86_64x86_64GNU/Linuxhadoop和hbase版本信息:hadoop-0.20.2-cdh3u4hbase-0.90-adh1u7.110.**.**.12NFSServer端,提供NFS服务10.**.**.15作为HDFSNameNode挂载10.**.**.12NFS共享目录以ganglia-5.rpm作为文件操作对象,大小在3m左右。hadoop/conf/hdfs-sit 阅读全文
posted @ 2013-01-20 20:10 ggjucheng 阅读(5452) 评论(0) 推荐(0)