糟糟张 - 博客园

2022年3月23日 #

Superset安装部署操作

摘要： 1、安装Miniconda 因为安装Superset需要Python3.7的环境，为了实现一个机器不同版本的Python，所以可以通过Miniconda来在不同的Python环境中进行切换 1、下载Miniconda 官网地址：https://conda.io/en/latest/miniconda 阅读全文

posted @ 2022-03-23 17:30 糟糟张阅读(1907) 评论(0) 推荐(0)

2022年3月10日 #

Kafka-消息系统

摘要： 1、Kafka概念 kafka是一个高吞吐的分布式消息系统,它类似HDFS用来存储数,但HDFS是持久化的,文件数据会一直保留,而Kafka只存储一段时间的数据,长时间不消费会自动删除,同时存储采用零拷贝技术,可以不需要再内存中消费资源 2、kafka架构 1、broker:kafka集群的serv 阅读全文

posted @ 2022-03-10 14:42 糟糟张阅读(840) 评论(0) 推荐(0)

2022年2月21日 #

Prometheus监控

摘要： ###1、Prometheus基本架构 ###2、Prometheus安装主要安装Prometheus Service(核心服务)和Pushgateway(对数据做采集可以是flink) ####1、Prometheus下的文件修改Prometheus的配置文件 ####2、Pushgatewa 阅读全文

posted @ 2022-02-21 13:57 糟糟张阅读(589) 评论(0) 推荐(0)

2021年11月26日 #

Flink基础

摘要： 1、Flink模型 2、持续流模型 Flink的算子不是懒执行的，Spark算子在遇到Action算子才会执行 3、WordCount实例 package core import org.apache.flink.streaming.api.scala._ object Demo1WordCount 阅读全文

posted @ 2021-11-26 19:17 糟糟张阅读(118) 评论(0) 推荐(0)

2021年11月21日 #

电信旅游集市

摘要：详：https://gitee.com/zhang-yilei-bigdata/telecom-tourism-fair 1、开启hadoop的权限验证关闭hadoop stop-all.sh 修改hdfs-site.xml文件 <property> <name>dfs.permissions</ 阅读全文

posted @ 2021-11-21 22:22 糟糟张阅读(138) 评论(0) 推荐(0)

2021年11月16日 #

Spark优化

摘要： ###代码优化 1.避免使用重复的RDD 2.对经常使用的RDD进行缓存持久化 3.使用高性能的算子 reduceByKey（map端预聚合）替代groupByKey mapPartitions替代map Transformation foreachPartitions替代foreach Actio 阅读全文

posted @ 2021-11-16 21:01 糟糟张阅读(113) 评论(0) 推荐(0)

2021年11月13日 #

Spark整合Hive

摘要： spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 spark-submit提交 2、spark shell (repl) 里面使用sqlContext 测试使用，简单任务使用 spark-shell --master yarn-client 不能使用yar 阅读全文

posted @ 2021-11-13 22:23 糟糟张阅读(486) 评论(0) 推荐(0)

2021年11月12日 #

Spark SQL和CSl

摘要： ###1 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1Sess { def main(args: Array[String]): Unit = { val spark: SparkSessio 阅读全文

posted @ 2021-11-12 23:12 糟糟张阅读(165) 评论(0) 推荐(0)

2021年11月11日 #

Spark图解

摘要： ###RDD五大特性 ###groupByKey和reduceBykey ###BlockManager ###资源调度和任务调度阅读全文

posted @ 2021-11-11 22:59 糟糟张阅读(92) 评论(0) 推荐(0)

Spark Shuffle

摘要： ###求PI，运用概率模型 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object PIDemo { def main(args 阅读全文

posted @ 2021-11-11 22:22 糟糟张阅读(113) 评论(0) 推荐(0)

再多学一点吧

导航

公告