大数据 - 随笔分类 - 每天都要进步啊

Hue时间参数设置

摘要：Oozie 常用的系统常量常量使用公式含义说明 ${coord:minutes(int n)} 返回日期时间：从一开始，周期执行n分钟 ${coord:hours(int n)} 返回日期时间：从一开始，周期执行n * 60分钟 ${coord:days(int n)} 返回日期时间：从一开始，周阅读全文

posted @ 2023-08-25 09:28 每天都要进步啊阅读(263) 评论(0) 推荐(0)

spark的DSL风格了解

摘要：阅读全文

posted @ 2022-08-16 18:14 每天都要进步啊阅读(136) 评论(0) 推荐(0)

Spark中group_concap替换函数concat_ws，collect_set-实现数分组后，将分组后字段连接排序连接起来

摘要：group_concat 可以在mysql中 group_concat(distinct pap_src order by data_date) hive中group_concat 函数只能分组后连接起来，不能order by data_date排序 spark中用concat_ws( ',' , 阅读全文

posted @ 2022-08-13 09:15 每天都要进步啊阅读(1352) 评论(0) 推荐(0)

hive增加、修改、删除字段

摘要：alter table table_name change c_time c_time string after column_1 ; -- 移动到指定位置,column_1字段的后面 alter table table_name change c_time c_time string after 阅读全文

posted @ 2022-08-13 09:03 每天都要进步啊阅读(686) 评论(0) 推荐(0)

Spark提交命令和参数调优

摘要：转载原文链接：https://blog.csdn.net/Q1059081877Q/article/details/106428301 1.num-executors 线程数：一般设置在50-100之间，必须设置，不然默认启动的executor非常少，不能充分利用集群资源，运行速度慢2.execut 阅读全文

posted @ 2022-08-12 09:34 每天都要进步啊阅读(759) 评论(0) 推荐(0)

idea环境配置记录

摘要：1 配置java_home 的jdk环境变量 2 配置hadoop的环境变量，用winutils中bin目录覆盖hadoop 的目录。hadoop.dll放再 c:windows\system32\ 阅读全文

posted @ 2022-08-04 16:36 每天都要进步啊阅读(28) 评论(0) 推荐(0)

HADOOP_HOME and hadoop.home.dir are unset.

摘要：原文链接： https://blog.csdn.net/weixin_44990104/article/details/ 阅读全文

posted @ 2022-08-04 16:24 每天都要进步啊阅读(80) 评论(0) 推荐(0)

sparkUi

摘要：原文链接：https://blog.csdn.net/lijingjingchn/article/details/83009002 出现了性能问题，转载一下基于Spark UI性能优化与调试——初级篇 Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java 阅读全文

posted @ 2021-09-17 12:08 每天都要进步啊阅读(287) 评论(0) 推荐(0)

spark为dataframe增加一列常数值

摘要：查了好几篇，太麻烦，我是想增加一列新列，而withclomns（“列名”“原有列存在的列”）不是我想要的pass 用 lit 函数解决导包很重要，不然找不到 import org.apache.spark.sql.functions.lit df.withCloumn("大宝丽“，lit(666 阅读全文

posted @ 2021-07-16 16:58 每天都要进步啊阅读(779) 评论(0) 推荐(0)

hive笔记梳理

摘要：1/ HIVE是什么？HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构，然后用户就可以输入SQL对这些表（HDFS上的文件）进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库（可以是本地derby，也可以是远程mysql）中 2/ HI 阅读全文

posted @ 2021-05-31 14:40 每天都要进步啊阅读(107) 评论(0) 推荐(0)

SQL 中 left join 的底层原理

摘要：转载自：https://www.cnblogs.com/jmcui/archive/2020/12/10/14117113.html#_label1 好好学习数据结构吧，毕业也几年了，很多东西都稀里糊涂，不能再这样下去了。突然想起来了高中物理老师的一句话，做了十道题，不如弄懂一道题。 01. 前言阅读全文

posted @ 2021-05-31 09:43 每天都要进步啊阅读(1355) 评论(0) 推荐(0)

SparkSql文档

摘要：SparkSQL是Spark上的高级模块，SparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame），然后在Spark集群中运行 SparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据） SparkSQL支持两种编程API 1.SQL方式 2.Data 阅读全文

posted @ 2021-05-29 15:40 每天都要进步啊阅读(491) 评论(0) 推荐(0)

序列化问题

摘要：package cn.edu360 import java.io.{FileInputStream, FileOutputStream, ObjectInputStream, ObjectOutputStream} /** * Created by zx on 2017/6/25. */class 阅读全文

posted @ 2021-05-29 15:00 每天都要进步啊阅读(68) 评论(0) 推荐(0)

Spark任务提交和执行流程

摘要：本文转自:https://www.cnblogs.com/chhyan-dream/p/12013463.html 1、概述为了更好地理解调度，我们先看一下集群模式的Spark程序运行架构图，如上所示： 2、Spark中的基本概念 1、Application：表示你的程序 2、Driver：表示m 阅读全文

posted @ 2021-05-29 10:08 每天都要进步啊阅读(487) 评论(0) 推荐(0)

Spark 任务执行的流程

摘要：Spark 任务执行的流程四个步骤1.构建DAG（调用RDD上的方法）2.DAGScheduler将DAG切分Stage（切分的依据是Shuffle），将Stage中生成的Task以TaskSet的形式给TaskScheduler3.TaskScheduler调度Task（根据资源情况将Task调阅读全文

posted @ 2021-05-28 11:12 每天都要进步啊阅读(1088) 评论(0) 推荐(0)

Spark任务执行各对象创建的时机

摘要：1.SparkContext哪一端生成的？ Driver端 2.DAG是在哪一端被构建的？ Driver端 3.RDD是在哪一端生成的？ Driver端 4.广播变量是在哪一端调用的方法进行广播的？ Driver端 5.要广播的数据应该在哪一端先创建好再广播呢？ Driver端 6.调用RDD的算子阅读全文

posted @ 2021-05-28 10:58 每天都要进步啊阅读(65) 评论(0) 推荐(0)

rdd入门文档

摘要：1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性阅读全文

posted @ 2021-05-26 16:45 每天都要进步啊阅读(366) 评论(0) 推荐(0)

rdd算子

摘要：1.RDD是一个基本的抽象，操作RDD就像操作一个本地集合一样，降低了编程的复杂度 RDD的算子分为两类，一类是Transformation（lazy），一类是Action（触发任务执行）RDD不存真正要计算的数据，而是记录了RDD的转换关系（调用了什么方法，传入什么函数）创建RDD有哪些中方式呢阅读全文

posted @ 2021-05-26 15:46 每天都要进步啊阅读(357) 评论(0) 推荐(0)

Spark执行任务流程简介

摘要：提交一个spark程序到spark集群，会产生哪些进程？ SparkSubmint（Driver）提交任务Executor 执行真正的计算任务的提交任务可以指定多个master地址，目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077 阅读全文

posted @ 2021-05-26 14:05 每天都要进步啊阅读(363) 评论(0) 推荐(0)

kafka的consumer.poll（Long）和consumer.poll(Duration.ofMillis(2000)) 的区别

摘要：项目中用到了kafka，没用Streaming，只是用了个简单的kafka连接最初的使用的是consumer.poll(10) 这样拉取得数据，发现这样得拉取数据得方式当连接不上kafka时或者连接不正确，或者broker失败，总而言之就是连接不上kafka，会使得程序一直在运行停不下来. 解决阅读全文

posted @ 2021-05-26 09:36 每天都要进步啊阅读(6893) 评论(0) 推荐(2)

大宝丽呀

子夏曰：“日知其所亡，月无忘其所能，可谓好学也已矣。”

随笔分类 - 大数据

公告