摘要:
一、Flume的介绍: Flume由Cloudera公司开发,是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据;同时,flume提供对数据进行简单处理,并写到各种数据接收方的能力,如果能用一句话概括Flume,那么Flume是 阅读全文
posted @ 2018-03-04 17:55
对白的算法屋
阅读(3458)
评论(0)
推荐(0)
摘要:
一、HDFS的由来: 本地系统:一个节点作为系统,以前数据是存放在本地文件系统上的,但本地文件系统存在两个问题:1、本地节点存储容量不够大;2、本地节点会坏,数据不够安全。这时,人们开始利用闲置的计算机组成了分布式系统,分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。 分布式系统 阅读全文
posted @ 2018-03-04 17:37
对白的算法屋
阅读(1642)
评论(0)
推荐(0)
摘要:
一、spark SQL:类似于Hive,是一种数据分析引擎 什么是spark SQL? spark SQL只能处理结构化数据 底层依赖RDD,把sql语句转换成一个个RDD,运行在不同的worker上 特点: 1、容易集成:SQL语句 2、对不同的数据源提供统一的访问方式:DataFrame 用Da 阅读全文
posted @ 2018-03-04 17:34
对白的算法屋
阅读(3343)
评论(0)
推荐(0)
摘要:
日常的大数据使用都是在服务器命令行中进行的,可视化功能仅仅依靠各个组件自带的web界面来实现,不同组件对应不同的端口号,如:HDFS(50070),Yarn(8088),Hbase(16010)等等,而大数据的组件又有很多,为了解决某个问题,常常需要结合多个组件来使用,但是每个组件又有独立的web界 阅读全文
posted @ 2018-03-04 17:32
对白的算法屋
阅读(2636)
评论(0)
推荐(0)

浙公网安备 33010602011771号