04 2020 档案

摘要:一.练习目标 1.Flume.监控/tmp/logs/update.log文件 2.创建日志生成的脚本,写入/tmp/logs/update.log。 3.Flume捕获数据 4.将捕获的数据,推送到消息队列kafka 5.在Kafka模拟数据消费 1.解压并安装flume tar -zxvf ap 阅读全文
posted @ 2020-04-29 11:57 phy2020 阅读(248) 评论(0) 推荐(0)
摘要:1.下载并解压至指定目录 下载地址:http://kafka.apache.org/downloads tar -zxvf kafka_2.11-0.10.1.0.tgz kafka_2.11-0.10.1.0 //解压 mv kafka_2.11-0.10.1.0 /opt/soft/kafka 阅读全文
posted @ 2020-04-29 11:22 phy2020 阅读(1113) 评论(0) 推荐(0)
摘要:reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8 阅读全文
posted @ 2020-04-22 16:48 phy2020 阅读(184) 评论(0) 推荐(0)
摘要:1、创建一个spark程序 1.1 基于Maven构建Scala工程 1.2 加入Pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=" 阅读全文
posted @ 2020-04-22 13:47 phy2020 阅读(367) 评论(0) 推荐(0)
摘要:1.1 RDD算子的分类 Transformation(转换):根据数据集创建一个新的 数据集,计算后返回一个新的RDD。例如,一个RDD进行map操作后,生成了新的RDD。 Action(动作):对RDD结果计算返回一个数值value给驱动程序,或者把结果存储到外部存储系统中; 例如:collec 阅读全文
posted @ 2020-04-21 20:30 phy2020 阅读(244) 评论(0) 推荐(0)
摘要:Spark的高可用部署 1.高可用部署说明 Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存着Master单点故障的问题。如何解决这个问题,Spark提供了两种方案: (1)基于文件系统的单点恢复(Single-No 阅读全文
posted @ 2020-04-18 00:09 phy2020 阅读(2441) 评论(0) 推荐(0)
摘要:单机版安装 一、安装前提 1. 关闭Linux(CentOS7.X版本)的防火墙,关闭selinux、networkmanager等网络和安全相关的配置 关闭防火墙:systemctl stop firewalld 永久关闭防火墙:systemctl disable firewalld 2. 下载安 阅读全文
posted @ 2020-04-17 23:51 phy2020 阅读(324) 评论(0) 推荐(0)
摘要:概述 1. Zookeeper是根据谷歌的论文《The Chubby Lock Service for Loosely Couple Distribute System 》所做的开源实现 2. Zookeeper是Apache Hadoop的子组件之一,但是不仅仅支持Hadoop,还支持绝大部分的分 阅读全文
posted @ 2020-04-17 23:23 phy2020 阅读(232) 评论(0) 推荐(0)
摘要:1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar 阅读全文
posted @ 2020-04-16 23:30 phy2020 阅读(565) 评论(0) 推荐(0)
摘要:RPC普及篇 概述 1. RPC 的全称是 Remote Procedure Call(远程过程调用)是一种进程间通信方式 2. 它允许程序调用另一个地址空间(通常是共享网络的另一台机器上)的过程或函数,而不用程序员显式编码这个远程调用的细节。 即程序员无论是调用本地的还是远程的,本质上编写的调用代 阅读全文
posted @ 2020-04-16 00:33 phy2020 阅读(1496) 评论(0) 推荐(0)
摘要:概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式,使其可在网络中传输,或者可存储在内存或者文件中 2. 反序列化则是相反的操作,将对象从序列化数据中还原出来 数据序列化的重点在于数据的交换和传输 衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存或者 阅读全文
posted @ 2020-04-14 14:00 phy2020 阅读(234) 评论(0) 推荐(0)
摘要:Block是什么 1. Block是HDFS中数据存储的基本单位,即一个文件在HDFS中是由一个或者多个Block构成 2. Block的大小默认是128M,通过dfs.blocksize(hdfs-site.xml)来调节大小,单位是字节 3. 如果一个文件本身不到一个Block的大小,那么这个文 阅读全文
posted @ 2020-04-13 12:39 phy2020 阅读(340) 评论(0) 推荐(0)