随笔分类 - 大数据
摘要:https://www.w3cschool.cn/apache_storm/ Apache Storm教程Apache Storm简介Apache Storm核心概念Apache Storm集群架构Apache Storm工作流程Apache Storm分布式消息系统Apache Storm安装Ap
阅读全文
摘要:https://www.runoob.com/scala/scala-tutorial.html Scala 简介 Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在 Java 虚拟机上,并兼容现有的 Java
阅读全文
摘要:目录http://c.biancheng.net/view/6509.html 1HBase是什么?2HBase的优势有哪些?3Hadoop与HBase的关系4HDFS5HDFS的特点与使用场景6HBase的组件和功能7Zookeeper是什么?8HMaster是什么?9RegionServer是什
阅读全文
摘要:https://www.w3cschool.cn/hadoop/ 铺垫 人产生数据的速度越来越快,机器则更加快,数据的增长速度通常比算法更快,所以需要另外的一种处理数据的方法。 硬盘的容量增加了,但性能没有跟上,解决办法是把数据分到多块硬盘,然后同时读取。但带来一些问题: 硬件问题:复制数据解决(R
阅读全文
摘要:参考https://www.w3cschool.cn/zookeeper/ Zookeeper 概述 ZooKeeper 是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务是一个复杂的过程。ZooKeeper 通过其简单的架构和 API 解决了这个问题。ZooKeeper 允许开发
阅读全文
摘要:Storm 基础知识 基础知识 Storm 是一个分布式的,可靠的,容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm 集群的输入流由一个被称作 spout 的组件管理,spout 把数据传递给 bolt, bolt 要么把数据保存到某种存储器,
阅读全文
摘要:HBase 1、HBase介绍和工作原理 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,
阅读全文
摘要:目录 一:HDFS系统架构 (一)利用secondary node备份实现数据可靠性 (二)问题:NameNode的可用性不高,当NameNode节点宕机,则服务终止二:HA架构 提高NameNode服务的可用性 (一)两个NN节点在某个时间只能有一个节点正常响应客户端请求,响应请求的必须为ACTI
阅读全文
摘要:最近在学习Flume源码,所以想写一份Flume源码学习的笔记供需要的朋友一起学习参考。 1、Flume介绍 Flume是cloudera公司开源的一款分布式、可靠地进行大量日志数据采集、聚合和并转移到存储中;通过事务机制提供了可靠的消息传输支持,自带负载均衡机制来支撑水平扩展;并且提供了一些默认组
阅读全文
摘要:什么是 Zookeeper Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如: 统一命名服务 状态同步服务 集群管理 分布式应用配置项的管理等 Zookeeper已经成为Hadoop生态系统中的基础组件。 一、分
阅读全文
摘要:Kosmos distributed file system,简称KFS,是一个类GFS的分布式文件系统,被设计用于分布式的结构化存储。下面将对KFS的体系结构进行简单介绍,最后给出一个使用KFS C++ API的示例。 1. KFS体系结构 KFS和GFS的整体结构类似,图中所示为GFS的体系结构
阅读全文
摘要:storm简介 场景 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或
阅读全文
摘要:1.下载 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz 最新版 解压: tar -zxvf hadoop-2.7.1.tar.gz 2.配置环境变量 user@EBJ1023.l
阅读全文
摘要:schema设计原则 前提条件 使用HBase Shell或者Java API的HBaseAdmin来创建和编辑HBase的Schema,当修改列簇时,建议先将这张表下线。 Configuration config = HBaseConfiguration.create(); HBaseAdmin
阅读全文
摘要:HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。 HBase特性: 1 高可靠性 2 高效性 3 面向列 4 可伸缩 5 可在廉价PC
阅读全文
摘要:通过Shell工具可以对云数据库HBase进行数据管理,包括建表、插入数据、删除数据和删除表等操作,本文介绍Shell的基本使用命令。 访问配置 如果使用的是云数据库HBase标准版,基本环境的配置操作请参见使用HBase Shell访问HBase标准版。 如果使用的是云数据库HBase增强版,基本
阅读全文
摘要:引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide、 Developer API编写 。所有代码均基于“hbase 0.96.2-hadoop2 ”版本编写,均实测通过。欢迎转载,请注明来源:htt
阅读全文
摘要:https://blog.csdn.net/qq_27384769/article/details/80159953 一、概述数据在线分析处理和常用工具大数据离线处理和常用工具OLAP 和 OLTP 处理和常用处理工具二、数据在线分析处理和常用工具1、Flume 介绍Flume 专注于大数据的收集和
阅读全文