简单,可复制

点点滴滴,尽在文中

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 43 下一页

2013年1月31日

摘要: 如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中,连接到hadoop集群的用户/组信息取决于客户端环境,即客户端主机中`whoami`和`bash –c groups`取到的用户名和组名,没有uid和gid,用户属组列表中只要有一个与集群配置的用户 阅读全文
posted @ 2013-01-31 14:29 ggjucheng 阅读(10605) 评论(0) 推荐(2) 编辑

2013年1月30日

摘要: 背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个... 阅读全文
posted @ 2013-01-30 17:10 ggjucheng 阅读(20427) 评论(3) 推荐(2) 编辑

2013年1月20日

摘要: 本文分为4个分部:1. 介绍 2.基本架构 3.与Hive对比 4.使用一、介绍Google的工程师为了方便自己对MapReduce的实现搞了一个叫做Sawzall的工具,Google就放了几篇论文放在网上,但这玩意在代码上不开源在设计思想是开源的,在前面一篇文章中我也提到过Hadoop也推出了类似Sawzall的Pig语言,就是根据Google放出来的论文山寨的。Pig是对处理超大型数据集的抽象层,在MapReduce中的框架中有map和reduce两个函数,如果你亲手弄一个MapReduce实现从编写代码,编译,部署,放在Hadoop上执行这个MapReduce程序还是耗费你一定的时间的, 阅读全文
posted @ 2013-01-20 21:52 ggjucheng 阅读(5945) 评论(0) 推荐(0) 编辑

摘要: 前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。本文基于 Cloudera CDH 3u4(同Apache Hadoop 1.0)编写。相关推荐配置为官方推荐值或者笔者经验数值,它不是绝对的,可能会因为不同的应用场景和硬件环境有所出入。1. 选择Cloudera CDH部署你的Cluster动机大多数管理员都是从Apache Hadoop开始学习。笔者最开始也使用Apache版 阅读全文
posted @ 2013-01-20 21:36 ggjucheng 阅读(2632) 评论(0) 推荐(1) 编辑

摘要: 网站需要具有良好的可伸缩性,来应对不断增长的访问量和数据量。《程序员》杂志5月刊的《可伸缩性的10年探索:知名网站的技术发展历程》一文中介绍了一些Alexa排名较前的网站的技术发展历程,本文将结合提及的Google、Facebook、Twitter等网站的技术发展历程,总结它们在可伸缩性、可用性、高性能以及低成本四点上通常采用的技术。可伸缩可伸缩分为垂直伸缩和水平伸缩两类,垂直伸缩通过升级机器的硬件来解决问题,水平伸缩通过增加机器来解决问题。不同网站在可伸缩上采用了不同的策略。例如,Google完全依赖水平伸缩来解决问题,而其他网站多数是依赖垂直伸缩来解决数据存储问题。垂直伸缩要求软件要能在硬 阅读全文
posted @ 2013-01-20 21:21 ggjucheng 阅读(1264) 评论(0) 推荐(1) 编辑

摘要: Instagram团队上个月才迎来第 7 名员工,是的,7个人的团队。作为 iPhone 上最火爆的图片类工具,instagram 用户数量已经超过 1400 万,图片数量超过 1.5 亿张。不得不说,这真他妈是个业界奇迹。几天前,只有三个人的 Instagram 工程师团队发布了一篇文章:What Powers Instagram: Hundreds of Instances, Dozens of Technologies,披露了 Instagram 架构的一些信息,足够勾起大多数人的好奇心。读罢做点笔记,各种线索还是有一定参考价值的。能打开原文的建议直接读原文。Instagram 开发团队 阅读全文
posted @ 2013-01-20 21:18 ggjucheng 阅读(1171) 评论(0) 推荐(0) 编辑

摘要: 2005年,我开始和朋友们开始拉活儿做网站,当时第一个网站是在linux上用jsp搭建的,到后来逐步的引入了多种框架,如webwork、hibernate等。在到后来,进入公司,开始用c/c++,做分布式计算和存储。(到那时才解开了我的一个疑惑:C语言除了用来写HelloWorld,还能干嘛?^_^)。总而言之,网站根据不同的需求,不同的请求压力,不同的业务模型,需要不同的架构来给予支持。我从我的一些经历和感受出发,大体上总结了一下的一些阶段。详情容我慢慢道来。【第一阶段:搭建属于自己的网站】我们最先开始的网站可能是长成这个样子的:拿Java做例子,我们可能会引入struts、spring、h 阅读全文
posted @ 2013-01-20 20:43 ggjucheng 阅读(1412) 评论(0) 推荐(0) 编辑

摘要: 当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向定位在互联网应用。这些人里大多数不是很懂技术,或者不是那么精通,而网站开发维护方面的知识又很分散,学习成本太高,所以这篇文章将这些知识点结合起来,系统的来说,一个从日几千访问的小小网站,到日访问一两百万的小网站,中间可能会产生什么问题,以及怎么才能在一开始做足工作尽量避免这些问题。对于不同的初期投资成本,技术路线的选择是不同的。这里假设网站刚刚只是一个构想,计划第一年服务器硬件带宽投入5万左右。对于这个资金额度,有很多种方案可选择,例如租用虚拟主机、租用单独服务器,或者流行的私有云,或者托管服 阅读全文
posted @ 2013-01-20 20:36 ggjucheng 阅读(2184) 评论(0) 推荐(1) 编辑

摘要: 互联网架构 百万级访问量网站的技术准备工作 蚂蚁变大象:浅谈常规网站是如何从小变大的 世界知名网站的技术实现 可扩展Web架构与分布式系统 Instagram 架构分析笔记 How Digg is Built:讲述Digg背后的技术 阅读全文
posted @ 2013-01-20 20:33 ggjucheng 阅读(6004) 评论(0) 推荐(0) 编辑

摘要: 硬件技术的发展给存储和数据库软件技术提供了新的机会。近年来SSD开始流行,那么SSD能否给Hadoop/HBase带来性能的提升呢?来自Facebook数据团队的工程师们做了相关的研究和实验工作。本文是http://hadoopblog.blogspot.com/2012/05/hadoop-and-solid-state-drives.html(需自备梯子)的翻译并加上了一些自己的思考,版权归原博客作者所有。先说下SSD吧,SSD没有传统机械硬盘的机械寻道时间而带来的延迟,所以IOPS性能可以达到100-200K(而15K的SAS一般在100左右),所以能提供相对于机械硬盘100+倍的的小文 阅读全文
posted @ 2013-01-20 20:16 ggjucheng 阅读(6367) 评论(1) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 43 下一页