再多学一点吧

导航

2022年3月23日 #

Superset安装部署操作

摘要: 1、安装Miniconda 因为安装Superset需要Python3.7的环境,为了实现一个机器不同版本的Python,所以可以通过Miniconda来在不同的Python环境中进行切换 1、下载Miniconda 官网地址:https://conda.io/en/latest/miniconda 阅读全文

posted @ 2022-03-23 17:30 糟糟张 阅读(1390) 评论(0) 推荐(0) 编辑

2022年3月10日 #

Kafka-消息系统

摘要: 1、Kafka概念 kafka是一个高吞吐的分布式消息系统,它类似HDFS用来存储数,但HDFS是持久化的,文件数据会一直保留,而Kafka只存储一段时间的数据,长时间不消费会自动删除,同时存储采用零拷贝技术,可以不需要再内存中消费资源 2、kafka架构 1、broker:kafka集群的serv 阅读全文

posted @ 2022-03-10 14:42 糟糟张 阅读(797) 评论(0) 推荐(0) 编辑

2022年2月21日 #

Prometheus监控

摘要: ###1、Prometheus基本架构 ###2、Prometheus安装 主要安装Prometheus Service(核心服务)和Pushgateway(对数据做采集可以是flink) ####1、Prometheus下的文件 修改Prometheus的配置文件 ####2、Pushgatewa 阅读全文

posted @ 2022-02-21 13:57 糟糟张 阅读(519) 评论(0) 推荐(0) 编辑

2021年11月26日 #

Flink基础

摘要: 1、Flink模型 2、持续流模型 Flink的算子不是懒执行的,Spark算子在遇到Action算子才会执行 3、WordCount实例 package core import org.apache.flink.streaming.api.scala._ object Demo1WordCount 阅读全文

posted @ 2021-11-26 19:17 糟糟张 阅读(80) 评论(0) 推荐(0) 编辑

2021年11月21日 #

电信旅游集市

摘要: 详:https://gitee.com/zhang-yilei-bigdata/telecom-tourism-fair 1、开启hadoop的权限验证 关闭hadoop stop-all.sh 修改hdfs-site.xml文件 <property> <name>dfs.permissions</ 阅读全文

posted @ 2021-11-21 22:22 糟糟张 阅读(78) 评论(0) 推荐(0) 编辑

2021年11月16日 #

Spark优化

摘要: ###代码优化 1.避免使用重复的RDD 2.对经常使用的RDD进行缓存持久化 3.使用高性能的算子 reduceByKey(map端预聚合)替代groupByKey mapPartitions替代map Transformation foreachPartitions替代foreach Actio 阅读全文

posted @ 2021-11-16 21:01 糟糟张 阅读(61) 评论(0) 推荐(0) 编辑

2021年11月13日 #

Spark整合Hive

摘要: spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 spark-submit提交 2、spark shell (repl) 里面使用sqlContext 测试使用,简单任务使用 spark-shell --master yarn-client 不能使用yar 阅读全文

posted @ 2021-11-13 22:23 糟糟张 阅读(421) 评论(0) 推荐(0) 编辑

2021年11月12日 #

Spark SQL和CSl

摘要: ###1 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1Sess { def main(args: Array[String]): Unit = { val spark: SparkSessio 阅读全文

posted @ 2021-11-12 23:12 糟糟张 阅读(73) 评论(0) 推荐(0) 编辑

2021年11月11日 #

Spark图解

摘要: ###RDD五大特性 ###groupByKey和reduceBykey ###BlockManager ###资源调度和任务调度 阅读全文

posted @ 2021-11-11 22:59 糟糟张 阅读(67) 评论(0) 推荐(0) 编辑

Spark Shuffle

摘要: ###求PI,运用概率模型 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Random object PIDemo { def main(args 阅读全文

posted @ 2021-11-11 22:22 糟糟张 阅读(62) 评论(0) 推荐(0) 编辑