2020寒假(10)

今天学习spark实验6 Spark Streaming编程初级实践

首先实验内容要求安装Flume,在网上找资料学习初步了解Flume百度百科

Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量

日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume 的

核心是把数据从数据源收集过来,再送到目的地。

 

其优势有

1. Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase

2. 当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据.

3. 提供上下文路由特征

4. Flume的管道是基于事务,保证了数据在传送和接收时的一致性.

5. Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的

其特征有:

1. Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase

2. 使用Flume,我们可以将从多个服务器中获取的数据迅速的移交给Hadoop

3. 除了日志信息,Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如facebook,twitter,电商网站如亚马逊,flipkart

4. 支持各种接入资源数据的类型以及接出数据类型

5. 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等

6. 可以被水平扩展

实验内容要求:

 

1.安装 Flume 
2. 使用 Avro 数据源测试 Flume

 

Avro 可以发送一个给定的文件给 Flume,Avro 源使用 AVRO RPC 机制。请对 Flume

 

的相关配置文件进行设置,从而可以实现如下功能:在一个终端中新建一个文件

 

helloworld.txt(里面包含一行文本“Hello World”),在另外一个终端中启动 Flume 以后,

 

可以把 helloworld.txt 中的文本内容显示出来。

 

 

avro source 执行完后为出现文本内容,!

 

posted @ 2020-02-09 22:29  HHHarden13  阅读(125)  评论(0编辑  收藏  举报