爱如夏花

2017年2月8日

使用Ambari快速部署Hadoop大数据环境

摘要: 前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时 阅读全文

posted @ 2017-02-08 10:03 UUBird 阅读(145) 评论(0) 推荐(0) 编辑

Hadoop,HBase,Storm,Spark到底是什么?

摘要: Hadoop=HDFS+Hive+Pig+... HDFS: 存储系统 MapReduce:计算系统 Hive:提供给SQL开发人员(通过HiveQL)的MapReduce,基于Hadoop的数据仓库框架 Pig:基于Hadoop的语言开发的 HBase:NoSQL数据库 Flume:一个收集处理H 阅读全文

posted @ 2017-02-08 09:59 UUBird 阅读(180) 评论(0) 推荐(0) 编辑

2017年2月7日

Google服务器架构图解简析

摘要: PS:Google,无疑是互联网时代最闪亮的明星。截止到今天为止,Google美国主站在Alexa排名已经连续3年第一,Alexa Top100中,各国的Google分站竟然霸占了超过20多个名额,不得不令人感叹Google的强大。不论何时,不论何地,也不论你搜索多么冷门的词汇,只要你的电脑连接互联 阅读全文

posted @ 2017-02-07 16:50 UUBird 阅读(1120) 评论(0) 推荐(0) 编辑

百度的Hadoop分布式大数据系统图解:4000节点集群

摘要: 在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部 阅读全文

posted @ 2017-02-07 16:32 UUBird 阅读(713) 评论(0) 推荐(0) 编辑

为Hadoop集群选择合适的硬件配置

摘要: 随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如 阅读全文

posted @ 2017-02-07 16:28 UUBird 阅读(856) 评论(0) 推荐(0) 编辑

Hadoop组件Hive配置文件配置项详解

摘要: 这里列出了hive几乎所有的配置项,很有用,收藏: hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置; hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null, 阅读全文

posted @ 2017-02-07 16:28 UUBird 阅读(1381) 评论(0) 推荐(0) 编辑

腾讯TDW:大型Hadoop集群应用

摘要: PS:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。 TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软 阅读全文

posted @ 2017-02-07 16:25 UUBird 阅读(205) 评论(0) 推荐(0) 编辑

Hadoop组件Hbase配置项详解

摘要: 重读hbase文档,把所有的配置项整理一遍: hbase.tmp.dir:hadoop本地文件系统的临时目录,默认是${hbase.tmp.dir}/hbase,或者直接用绝对路径如/data/hbase; hbase.rootdir:hbase持久化的目录,被所有regionserver共享,默认 阅读全文

posted @ 2017-02-07 16:18 UUBird 阅读(354) 评论(0) 推荐(0) 编辑

主流大数据采集平台的架构图解

摘要: 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数 阅读全文

posted @ 2017-02-07 16:17 UUBird 阅读(3899) 评论(0) 推荐(0) 编辑

大数据架构师技能图谱

摘要: 大数据通用处理平台 分布式存储 HDFS 资源调度 Yarn Mesos 机器学习工具 Mahout 数据分析/数据仓库(SQL类) 8.1 ElasticSearch 8.2Logstash 8.3Kibana 消息队列 流式计算 日志收集 Scribe Flume 编程语言 数据分析挖掘 MAT 阅读全文

posted @ 2017-02-07 16:12 UUBird 阅读(240) 评论(0) 推荐(0) 编辑

导航