随笔分类 -  大数据

摘要:Oozie 常用的系统常量 常量使用公式含义说明 ${coord:minutes(int n)} 返回日期时间:从一开始,周期执行n分钟 ${coord:hours(int n)} 返回日期时间:从一开始,周期执行n * 60分钟 ${coord:days(int n)} 返回日期时间:从一开始,周 阅读全文
posted @ 2023-08-25 09:28 每天都要进步啊 阅读(263) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2022-08-16 18:14 每天都要进步啊 阅读(136) 评论(0) 推荐(0)
摘要:group_concat 可以在mysql中 group_concat(distinct pap_src order by data_date) hive中group_concat 函数只能分组后连接起来,不能order by data_date排序 spark中用concat_ws( ',' , 阅读全文
posted @ 2022-08-13 09:15 每天都要进步啊 阅读(1352) 评论(0) 推荐(0)
摘要:alter table table_name change c_time c_time string after column_1 ; -- 移动到指定位置,column_1字段的后面 alter table table_name change c_time c_time string after 阅读全文
posted @ 2022-08-13 09:03 每天都要进步啊 阅读(686) 评论(0) 推荐(0)
摘要:转载原文链接:https://blog.csdn.net/Q1059081877Q/article/details/106428301 1.num-executors 线程数:一般设置在50-100之间,必须设置,不然默认启动的executor非常少,不能充分利用集群资源,运行速度慢2.execut 阅读全文
posted @ 2022-08-12 09:34 每天都要进步啊 阅读(759) 评论(0) 推荐(0)
摘要:1 配置java_home 的jdk环境变量 2 配置hadoop的环境变量,用winutils中bin目录覆盖hadoop 的目录。hadoop.dll放再 c:windows\system32\ 阅读全文
posted @ 2022-08-04 16:36 每天都要进步啊 阅读(28) 评论(0) 推荐(0)
摘要:原文链接: https://blog.csdn.net/weixin_44990104/article/details/ 阅读全文
posted @ 2022-08-04 16:24 每天都要进步啊 阅读(80) 评论(0) 推荐(0)
摘要:原文链接:https://blog.csdn.net/lijingjingchn/article/details/83009002 出现了性能问题,转载一下 基于Spark UI性能优化与调试——初级篇 Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java 阅读全文
posted @ 2021-09-17 12:08 每天都要进步啊 阅读(287) 评论(0) 推荐(0)
摘要:查了好几篇,太麻烦,我是想增加一列新列,而withclomns(“列名”“原有列存在的列”) 不是我想要的pass 用 lit 函数解决 导包很重要,不然找不到 import org.apache.spark.sql.functions.lit df.withCloumn("大宝丽“,lit(666 阅读全文
posted @ 2021-07-16 16:58 每天都要进步啊 阅读(779) 评论(0) 推荐(0)
摘要:1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中 2/ HI 阅读全文
posted @ 2021-05-31 14:40 每天都要进步啊 阅读(107) 评论(0) 推荐(0)
摘要:转载自:https://www.cnblogs.com/jmcui/archive/2020/12/10/14117113.html#_label1 好好学习数据结构吧,毕业也几年了,很多东西都稀里糊涂,不能再这样下去了。 突然想起来了高中物理老师的一句话,做了十道题,不如弄懂一道题。 01. 前言 阅读全文
posted @ 2021-05-31 09:43 每天都要进步啊 阅读(1355) 评论(0) 推荐(0)
摘要:SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) SparkSQL支持两种编程API 1.SQL方式 2.Data 阅读全文
posted @ 2021-05-29 15:40 每天都要进步啊 阅读(491) 评论(0) 推荐(0)
摘要:package cn.edu360 import java.io.{FileInputStream, FileOutputStream, ObjectInputStream, ObjectOutputStream} /** * Created by zx on 2017/6/25. */class 阅读全文
posted @ 2021-05-29 15:00 每天都要进步啊 阅读(68) 评论(0) 推荐(0)
摘要:本文转自:https://www.cnblogs.com/chhyan-dream/p/12013463.html 1、概述 为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2、Spark中的基本概念 1、Application:表示你的程序 2、Driver:表示m 阅读全文
posted @ 2021-05-29 10:08 每天都要进步啊 阅读(487) 评论(0) 推荐(0)
摘要:Spark 任务执行的流程 四个步骤1.构建DAG(调用RDD上的方法)2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler3.TaskScheduler调度Task(根据资源情况将Task调 阅读全文
posted @ 2021-05-28 11:12 每天都要进步啊 阅读(1088) 评论(0) 推荐(0)
摘要:1.SparkContext哪一端生成的? Driver端 2.DAG是在哪一端被构建的? Driver端 3.RDD是在哪一端生成的? Driver端 4.广播变量是在哪一端调用的方法进行广播的? Driver端 5.要广播的数据应该在哪一端先创建好再广播呢? Driver端 6.调用RDD的算子 阅读全文
posted @ 2021-05-28 10:58 每天都要进步啊 阅读(65) 评论(0) 推荐(0)
摘要:1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 阅读全文
posted @ 2021-05-26 16:45 每天都要进步啊 阅读(366) 评论(0) 推荐(0)
摘要:1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) 创建RDD有哪些中方式呢 阅读全文
posted @ 2021-05-26 15:46 每天都要进步啊 阅读(357) 评论(0) 推荐(0)
摘要:提交一个spark程序到spark集群,会产生哪些进程? SparkSubmint(Driver)提交任务Executor 执行真正的计算任务的 提交任务可以指定多个master地址,目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077 阅读全文
posted @ 2021-05-26 14:05 每天都要进步啊 阅读(363) 评论(0) 推荐(0)
摘要:项目中用到了kafka,没用Streaming,只是用了个简单的kafka连接 最初的使用的是consumer.poll(10) 这样拉取得数据, 发现这样得拉取数据得方式当连接不上kafka时或者连接不正确,或者broker失败,总而言之就是连接不上kafka,会使得程序一直在运行停不下来. 解决 阅读全文
posted @ 2021-05-26 09:36 每天都要进步啊 阅读(6893) 评论(0) 推荐(2)