2019 年 6月 10 日随笔档案 - AaCan

HBase基础

摘要： HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBase特点（1）海量存储（2 阅读全文

posted @ 2019-06-10 20:39 AaCan 阅读(137) 评论(0) 推荐(0)

Flume基础

摘要： Fulme定义： Flume是Clourdera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flumens基于流式架构，灵活简单。 Flume最主要的作用就是实时读取服务器本地磁盘的数据，将数据传输到HDFS。 Flume的优点：（1）可以和任意存储进程集成。（2）输入阅读全文

posted @ 2019-06-10 20:38 AaCan 阅读(113) 评论(0) 推荐(0)

KAFKA基础及简单使用

摘要： kafuka基础架构 kafka的定义：kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。消息队列（Message Queue）的两种模式：（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）消息生产者生产消息发送到Queue中，然后消息消费者从Q 阅读全文

posted @ 2019-06-10 20:37 AaCan 阅读(393) 评论(0) 推荐(0)

SparkSQL基础定义及简单用法

摘要：定义 SpaekSQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。特点（1）易整合（2）统一的数据访问方式（3）兼容hive （4）标准的数据连接 DataFrame DataFrame是一个分布式阅读全文

posted @ 2019-06-10 20:36 AaCan 阅读(171) 评论(0) 推荐(0)

ACcan

HBase基础

Flume基础

KAFKA基础及简单使用

SparkSQL基础定义及简单用法

导航

公告