随笔分类 - Spark
摘要:package com.ustcinfo.SDK import java.sql.{Connection, PreparedStatement} import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.map
阅读全文
摘要:一、调用hadoopfile方法读取TXT文件,针对复杂的分割方式,例如|+|,;等 val gbkPath = s"/bdtj/line/DD_OUT_NOW_LV_$month.txt"//文件路径//将gbkPath以参数的形式传入进行读取 val Company2_temp = spark.
阅读全文
摘要:1、上传解压,配置环境变量 配置bin目录2、修改配置文件 conf mv spark-env.sh.template spark-env.sh 增加配置 export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077 export SPARK_
阅读全文
摘要:一、使用hive ETL预处理数据 适用场景 导致数据倾斜的是Hive表,hive表中的数据不均匀,业务场景需要频繁使用spark对hive表执行操作 实现思路 先评估是否可以通过hive预处理 预处理(按照可以进行聚合,或者预先和其他表进行join)--> spark所针对数据源就是预处理之后表,
阅读全文
摘要:实时计算 spark是微批处理, 每隔一段时间处理一次 flink 实时处理,每一条数据都会处理 将接收过来的数据,封装成一个rdd,执行rdd的计算 有状态算子 updataStateBykey 需要开启checkpoint,(需要保存之间计算的结果) reduceBykeyAndWindow 统
阅读全文
摘要:package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo05Sample { def main(args: Array[String]):
阅读全文
摘要:package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo04FlatMap { def main(args: Array[String]):
阅读全文
摘要:package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo09Union { def main(args: Array[String]): U
阅读全文
摘要:package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo03Filter { def main(args: Array[String]):
阅读全文
摘要:spark环境搭建 standalone模式搭建 1、上传解压,配置环境变量 配置bin目录 2、修改配置文件 conf mv spark-env.sh.template spark-env.sh添加以下代码 export SPARK_MASTER_IP=masterexport SPARK_MAS
阅读全文
摘要:package sparkcoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo02Map { def main(args: Array[String]): Uni
阅读全文
摘要:Spark概述 Spark定义 spark是一种基于内存的快速、通用、可扩展S的大数据分析计算引擎 Spark Core 中提供了Spark最基础核心的功能 Spark SQL是Spark用来操作结构化数据的组件 Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了
阅读全文

浙公网安备 33010602011771号