2020 年 4月随笔档案 - phy2020

flume集成kafka

摘要：一.练习目标 1.Flume.监控/tmp/logs/update.log文件 2.创建日志生成的脚本，写入/tmp/logs/update.log。 3.Flume捕获数据 4.将捕获的数据，推送到消息队列kafka 5.在Kafka模拟数据消费 1.解压并安装flume tar -zxvf ap 阅读全文

posted @ 2020-04-29 11:57 phy2020 阅读(248) 评论(0) 推荐(0)

KAFKA集群安装和配置

摘要：1.下载并解压至指定目录下载地址：http://kafka.apache.org/downloads tar -zxvf kafka_2.11-0.10.1.0.tgz kafka_2.11-0.10.1.0 //解压 mv kafka_2.11-0.10.1.0 /opt/soft/kafka 阅读全文

posted @ 2020-04-29 11:22 phy2020 阅读(1113) 评论(0) 推荐(0)

Action算子练习

摘要：reduce(func) 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8 阅读全文

posted @ 2020-04-22 16:48 phy2020 阅读(184) 评论(0) 推荐(0)

spark程序，创建提交和运行

摘要：1、创建一个spark程序 1.1 基于Maven构建Scala工程 1.2 加入Pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=" 阅读全文

posted @ 2020-04-22 13:47 phy2020 阅读(367) 评论(0) 推荐(0)

spark之RDD算子

摘要：1.1 RDD算子的分类 Transformation(转换):根据数据集创建一个新的数据集，计算后返回一个新的RDD。例如，一个RDD进行map操作后，生成了新的RDD。 Action(动作)：对RDD结果计算返回一个数值value给驱动程序，或者把结果存储到外部存储系统中；例如：collec 阅读全文

posted @ 2020-04-21 20:30 phy2020 阅读(244) 评论(0) 推荐(0)

spark+zookeeper高可用集群搭建

摘要：Spark的高可用部署 1.高可用部署说明 Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存着Master单点故障的问题。如何解决这个问题，Spark提供了两种方案：（1）基于文件系统的单点恢复（Single-No 阅读全文

posted @ 2020-04-18 00:09 phy2020 阅读(2441) 评论(0) 推荐(0)

zookeeper单机式、集群式部署

摘要：单机版安装一、安装前提 1. 关闭Linux(CentOS7.X版本)的防火墙，关闭selinux、networkmanager等网络和安全相关的配置关闭防火墙：systemctl stop firewalld 永久关闭防火墙：systemctl disable firewalld 2. 下载安阅读全文

posted @ 2020-04-17 23:51 phy2020 阅读(324) 评论(0) 推荐(0)

zookeeper简介

摘要：概述 1. Zookeeper是根据谷歌的论文《The Chubby Lock Service for Loosely Couple Distribute System 》所做的开源实现 2. Zookeeper是Apache Hadoop的子组件之一，但是不仅仅支持Hadoop，还支持绝大部分的分阅读全文

posted @ 2020-04-17 23:23 phy2020 阅读(232) 评论(0) 推荐(0)

Spark集群式安装部署

摘要：1.前提条件 1.1创建3台虚拟机，且配置好网络，建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar 阅读全文

posted @ 2020-04-16 23:30 phy2020 阅读(565) 评论(0) 推荐(0)

RPC调用

摘要：RPC普及篇概述 1. RPC 的全称是 Remote Procedure Call（远程过程调用）是一种进程间通信方式 2. 它允许程序调用另一个地址空间（通常是共享网络的另一台机器上）的过程或函数，而不用程序员显式编码这个远程调用的细节。即程序员无论是调用本地的还是远程的，本质上编写的调用代阅读全文

posted @ 2020-04-16 00:33 phy2020 阅读(1496) 评论(0) 推荐(0)

序列化

摘要：概述 1. 数据序列化就是将对象或者数据结构转化成特定的格式，使其可在网络中传输，或者可存储在内存或者文件中 2. 反序列化则是相反的操作，将对象从序列化数据中还原出来数据序列化的重点在于数据的交换和传输衡量标准 1. 序列化之后的数据大小。因为序列化的数据要通过网络进行传输或者是存储在内存或者阅读全文

posted @ 2020-04-14 14:00 phy2020 阅读(234) 评论(0) 推荐(0)

HDFS相关概念

摘要：Block是什么 1. Block是HDFS中数据存储的基本单位，即一个文件在HDFS中是由一个或者多个Block构成 2. Block的大小默认是128M，通过dfs.blocksize(hdfs-site.xml)来调节大小，单位是字节 3. 如果一个文件本身不到一个Block的大小，那么这个文阅读全文

posted @ 2020-04-13 12:39 phy2020 阅读(340) 评论(0) 推荐(0)

phy2020

04 2020 档案

公告