随笔分类 - 十.大数据生态圈
Linux系统(CentOS7),JVM使用的centOS7,比之间的Ubuntu,Debian桌面为主的版本不同,centOS7是基于redhat开发的较新的linux系统版本。
摘要:1. hbase简介 1.1. 什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组
阅读全文
摘要:在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 1 日志采集框架Flume Flume是一个分布式、可靠、和高可用的海量日志采集、聚
阅读全文
摘要:Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1为什么使用Hive 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。扩展功能很方便。 1.2
阅读全文
摘要:1.Mapreduce是什么? Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 2.作用 (1)海量数据在
阅读全文
摘要:HDFS 1 HDFS是什么? 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; HDFS是分布式文件系统(多个datanode更亲切点吧) 2 设计思想以及特性 设计思想:分而治之:将大文
阅读全文
摘要:HADOOP背景介绍 1.1 Hadoop产生背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文
阅读全文
摘要:zookeeper是本身是一种分布式协调服务(英文意思动物园园长因为Hadoop就是一个动物园,storm、hadoop、kafkaka、hbaser都是基于zookeeper开发的) 原理:Zookeeper虽然在配置文件中并没有指定master和slave但是,zookeeper工作时,是有一个
阅读全文
摘要:1、hbase的介绍(自行百度hbase,比我总结的全面具体) HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类
阅读全文
摘要:这个问题在刚学Linux遇到的,centOS7的网卡启动不起来,导致建不了集群。如下图没有ifconf-env33网卡的IP 还有下面这个图》》》 如果你遇到了,呵呵呵,迷之微笑。 如果systemctl restart network.service 命令(重启网卡)依然不好使 再启动 ip li
阅读全文

浙公网安备 33010602011771号