随笔分类 -  Hadoop&Spark

spark saveAsHadoopFile
摘要:saveAsHadoopFile 和 write.parquet 或 write.text 是 Apache Spark 中用于保存数据的不同方法,它们在功能、适用场景和底层实现上存在显著区别。以下是它们的对比和区别: 1. saveAsHadoopFile saveAsHadoopFile 是 S 阅读全文

posted @ 2025-02-26 16:06 ExplorerMan 阅读(39) 评论(0) 推荐(0)

spark write parquet与text 区别
摘要:在 Apache Spark 中,write.parquet 和 write.text 是两种不同的数据写入方式,主要用于将数据保存到不同的文件格式中,以下是它们的主要区别: 1. 数据存储格式 Parquet: Parquet 是一种列式存储格式,专为大规模数据分析优化。 它支持复杂的数据结构(如 阅读全文

posted @ 2025-02-26 15:43 ExplorerMan 阅读(30) 评论(0) 推荐(0)

to_json 与to_json_string区别
摘要:在Hive中,to_json和to_json_string是用于将复杂数据类型(如结构体、数组、映射等)转换为JSON格式字符串的函数。它们的主要区别在于实现和使用场景上。以下是两者的对比和说明: to_json 功能:将Hive中的复杂数据类型(如struct、array、map等)转换为JSON 阅读全文

posted @ 2025-02-25 19:50 ExplorerMan 阅读(262) 评论(0) 推荐(0)

collect_list 和 collect_set 有什么区别?
摘要:collect_list 和 collect_set 是 Hive 中用于聚合数据的两个常用函数,它们的主要区别在于是否去除重复值以及结果的顺序性。以下是它们的详细对比: 1. 功能区别 collect_list: 功能:将指定列的所有值(包括重复值)收集到一个数组中。 特点:保留所有值,不进行去重 阅读全文

posted @ 2025-02-25 19:43 ExplorerMan 阅读(1333) 评论(0) 推荐(1)

named_struct和map函数区别
摘要:在Hive中,named_struct和map函数都可以用来创建复杂的数据结构,但它们在功能和用途上有明显的区别。以下是两者的详细对比: 1. named_struct函数 功能:named_struct用于创建一个命名的结构体(struct),其中每个字段都有一个名称和值。 语法: sql复制 n 阅读全文

posted @ 2025-02-25 19:38 ExplorerMan 阅读(176) 评论(0) 推荐(0)

SQL字符串拼接函数concat()、collect_set()、collect_list()和concat_ws()用法
摘要:1、concat_ws()函数和concat()函数的拼接使用极其区别 1.1区别 concat():函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL 执行代码: select concat('a','b',null); 执行结果: NULL concat_ws():函数在连接字符 阅读全文

posted @ 2025-02-24 16:55 ExplorerMan 阅读(934) 评论(0) 推荐(0)

Parquet文件格式
摘要:随着大模型AI的进一步发展,我们需要存储和处理的数据量呈指数级增长,寻找存储各种数据风格的最佳方式依然是最大的挑战之一。 相信现在几乎已经没有人还会认为关系数据库是依然是唯一数据存储处理方式。 比如说抖音的视频和直播等信息,其原始数据通常是无法实现以传统(关系)数据库方式存储的,或者以传统方式存储它 阅读全文

posted @ 2024-12-12 16:45 ExplorerMan 阅读(50) 评论(0) 推荐(0)

Hive中高频常用的函数和语法
摘要:Hive中高频常用的函数和语法梳理及业务场景示例聚合函数collect_list - 收集列值到一个数组collect_list函数用于将指定列的值收集到一个数组中,并返回该数组作为结果。它通常在GROUP BY子句中使用,以将相同键的值收集到一个数组中进行聚合操作 以下是collect_list函 阅读全文

posted @ 2024-12-12 16:39 ExplorerMan 阅读(780) 评论(0) 推荐(0)

Hive判空函数 COALESCE 和 NVL 使用示例
摘要:Hive判空函数 COALESCE 和 NVL 使用示例 1. 在Hive中, COALESCE 和 NVL 函数都是用于处理NULL值的函数,以下是它们的用途总结:COALESCE: COALESCE 函数用于返回参数列表中第一个非NULL的数值或表达式。语法: COALESCE(value1, 阅读全文

posted @ 2024-12-12 16:37 ExplorerMan 阅读(2536) 评论(0) 推荐(0)

(转)数仓建模—ID Mapping
摘要:https://mp.weixin.qq.com/s/c9PI9Aj8IU023ktQXZgBDA?spm=a2c6h.12873639.article-detail.5.572763120dqNXJ 早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一 阅读全文

posted @ 2024-11-28 16:53 ExplorerMan 阅读(47) 评论(0) 推荐(0)

Hive_解析 get_json_object
摘要:get_json_object ( string json_string, string path ) 说明: 第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组。 如果输入的json字符串无效,那么返回NULL。 每次只能返回一个数据项。 举 阅读全文

posted @ 2023-11-14 21:46 ExplorerMan 阅读(167) 评论(0) 推荐(0)

Hive LAG函数分析
摘要:含义:LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) https://blog.csdn.net/weixin_43291055/arti 阅读全文

posted @ 2023-08-29 16:50 ExplorerMan 阅读(123) 评论(0) 推荐(1)

Hadoop----hdfs dfs常用命令的使用
摘要:-mkdir 创建目录 hdfs dfs -mkdir [-p] < paths> -ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 hdfs dfs -ls [-R] < args> -put 将本地文件或目录上传到HDFS中的路径 hdfs dfs -put < localsrc 阅读全文

posted @ 2023-08-11 16:20 ExplorerMan 阅读(808) 评论(0) 推荐(0)

hive 的order by ,sort by,distribute by,cluster by
摘要:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。 sort by sort by不是全局排序,其在数据进入r 阅读全文

posted @ 2023-08-10 21:48 ExplorerMan 阅读(50) 评论(0) 推荐(0)

大数据-hive 添加分区
摘要:1、静态分区1> 添加一个alter table t2 add partition (city=‘shanghai’);2> 添加多个alter table t2 add partition (city=‘chengdu’) partition(city=‘tianjin’);3> 添加分区指定位置 阅读全文

posted @ 2023-08-10 21:11 ExplorerMan 阅读(2524) 评论(0) 推荐(0)

pyspark Sparkconf()参数配置
摘要:from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession def create_sc(): sc_conf = SparkConf() sc_conf.setMaster('spark://mas 阅读全文

posted @ 2021-02-24 18:59 ExplorerMan 阅读(1545) 评论(0) 推荐(0)

sparkContext的addFile和addPyFile
摘要:addFile(path, recursive=False) 把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径,从而能够保证driver和每个wor 阅读全文

posted @ 2021-02-02 19:22 ExplorerMan 阅读(1249) 评论(0) 推荐(0)

Spark Streaming简介及原理
摘要:简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结 阅读全文

posted @ 2021-02-01 19:07 ExplorerMan 阅读(198) 评论(0) 推荐(0)

Spark 以及 spark streaming 核心原理及实践
摘要:阅读目录 Spark 特点 Spark的适用场景 Spark成功案例 导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验 阅读全文

posted @ 2021-02-01 19:06 ExplorerMan 阅读(335) 评论(0) 推荐(0)

Spark executor中task的数量与最大并发数
摘要:每个task处理一个partition,一个文件的大小/128M就是task的数量 Task的最大并发数 当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。 默认情况下一个task对应cpu的一个核。如果一个exec 阅读全文

posted @ 2021-02-01 18:54 ExplorerMan 阅读(3307) 评论(0) 推荐(0)

导航