摘要:
一、HBase基本概念:列式数据库 在Hadoop生态体系结构中,HBase位于HDFS(Hadoop分布式文件系统)的上一层,不依赖于MapReduce,那么如果没有HBase这种Nosql数据库会有什么影响呢?传统的关系型数据库由于存储数据有限,且其分布式结构由于本身的特点导致节点数量最大不会超 阅读全文
posted @ 2018-03-04 18:02
对白的算法屋
阅读(516)
评论(0)
推荐(0)
摘要:
一、背景: 随着互联网的发展、互联网用户的增加,互联网中的数据也急剧膨胀。每天产生的数据量数以万计,本地文件系统和单机CPU已无法满足存储和计算要求。Hadoop分布式文件系统(HDFS)是海量数据存储的重要技术,它将数据存储在多个从节点上,对这些节点的硬件资源进行统一管理与分配,并向客户端提供文件 阅读全文
posted @ 2018-03-04 18:01
对白的算法屋
阅读(2892)
评论(0)
推荐(0)
摘要:
Pig 一、Pig的介绍: Pig由Yahoo开发,主要应用于数据分析,Twitter公司大量使用Pig处理海量数据,Pig之所以是数据分析引擎,是因为Pig相当于一个翻译器,将PigLatin语句翻译成MapReduce程序(只有在执行dump和store命令时才会翻译成MapReduce程序), 阅读全文
posted @ 2018-03-04 18:00
对白的算法屋
阅读(3455)
评论(0)
推荐(0)
摘要:
一、Sqoop的简介: Sqoop是一个数据采集引擎/数据交换引擎,采集关系型数据库(RDBMS)中的数据,主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递,可以通过sqoop import命令将RDBMS中的数据导入到HDFS/Hive/HBase中,也可以通过sqoop ex 阅读全文
posted @ 2018-03-04 17:59
对白的算法屋
阅读(2167)
评论(0)
推荐(0)
摘要:
一、Flume的介绍: Flume由Cloudera公司开发,是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据;同时,flume提供对数据进行简单处理,并写到各种数据接收方的能力,如果能用一句话概括Flume,那么Flume是 阅读全文
posted @ 2018-03-04 17:55
对白的算法屋
阅读(3460)
评论(0)
推荐(0)
摘要:
一、HDFS的由来: 本地系统:一个节点作为系统,以前数据是存放在本地文件系统上的,但本地文件系统存在两个问题:1、本地节点存储容量不够大;2、本地节点会坏,数据不够安全。这时,人们开始利用闲置的计算机组成了分布式系统,分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。 分布式系统 阅读全文
posted @ 2018-03-04 17:37
对白的算法屋
阅读(1647)
评论(0)
推荐(0)
摘要:
一、spark SQL:类似于Hive,是一种数据分析引擎 什么是spark SQL? spark SQL只能处理结构化数据 底层依赖RDD,把sql语句转换成一个个RDD,运行在不同的worker上 特点: 1、容易集成:SQL语句 2、对不同的数据源提供统一的访问方式:DataFrame 用Da 阅读全文
posted @ 2018-03-04 17:34
对白的算法屋
阅读(3346)
评论(0)
推荐(0)
摘要:
日常的大数据使用都是在服务器命令行中进行的,可视化功能仅仅依靠各个组件自带的web界面来实现,不同组件对应不同的端口号,如:HDFS(50070),Yarn(8088),Hbase(16010)等等,而大数据的组件又有很多,为了解决某个问题,常常需要结合多个组件来使用,但是每个组件又有独立的web界 阅读全文
posted @ 2018-03-04 17:32
对白的算法屋
阅读(2640)
评论(0)
推荐(0)

浙公网安备 33010602011771号