2019年6月10日

HBase基础

摘要: HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase特点 (1)海量存储(2 阅读全文

posted @ 2019-06-10 20:39 AaCan 阅读(137) 评论(0) 推荐(0)

Flume基础

摘要: Fulme定义: Flume是Clourdera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flumens基于流式架构,灵活简单。 Flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据传输到HDFS。 Flume的优点: (1)可以和任意存储进程集成。 (2)输入 阅读全文

posted @ 2019-06-10 20:38 AaCan 阅读(113) 评论(0) 推荐(0)

KAFKA基础及简单使用

摘要: kafuka基础架构 kafka的定义:kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息队列(Message Queue)的两种模式: (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Q 阅读全文

posted @ 2019-06-10 20:37 AaCan 阅读(393) 评论(0) 推荐(0)

SparkSQL基础定义及简单用法

摘要: 定义 SpaekSQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 特点 (1)易整合 (2)统一的数据访问方式 (3)兼容hive (4)标准的数据连接 DataFrame DataFrame是 一个分布式 阅读全文

posted @ 2019-06-10 20:36 AaCan 阅读(171) 评论(0) 推荐(0)

导航