spark - 随笔分类 - riaris

[SparkSQL][COUNT(*COLS)]关于count(col1,col2)的使用记录

摘要：结论功能 count(col1, col2) 可以统计多个字段的非空记录要求 count()内含多个字段时，若有一个字段的记录为Null 则该条记录不会被统计 count()内含多个字段时，非sparksql引擎需要加distinct 字段限制 count()内含多个字段时，和以下语句不同 s 阅读全文

posted @ 2021-12-22 18:54 riaris 阅读(556) 评论(0) 推荐(0)

[sparkSQL][union]关于union相关的使用记录，奇怪的去重方法增加了

摘要：sql 中 Union相关说明结论 Union & Union all：功能：将两个要连接的 SQL 语句拼接在一起，要求：字段个数一样（强制），字段类型一致（非强制）int→double→string 输出：以第一个表的列名作为输出表的列名区别：union会对拼接结果去重，union al 阅读全文

posted @ 2021-12-01 11:33 riaris 阅读(1226) 评论(0) 推荐(0)

[spark][pyspark]拆分DataFrame中某列Array

摘要：getItem()语法 pyspark.sql.Column.getItem 描述 An expression that gets an item at position ordinal out of a list, or gets an item by key out of a dict. 示例阅读全文

posted @ 2021-11-24 12:33 riaris 阅读(1228) 评论(0) 推荐(0)

[spark][sql]Spark中使用RDD.toDF()由于数据类型不同带来的bug记录

摘要：Spark转换RDD到DF时，因数据类型不同带来的问题记录问题描述环境注意！！！在spark3+中，此bug是否还存在待证实。 spark2.4.5 pyspark 目标逻辑在使用Spark过程中，需要将保存数据列表的RDD转换为DataFrame写入hive表中。问题发生在列表数据转阅读全文

posted @ 2021-11-10 17:10 riaris 阅读(570) 评论(0) 推荐(0)

[Spark][pyspark]cache persist checkpoint 对RDD与DataFrame的使用记录

摘要：结论 cache操作通过调用persist实现，默认将数据持久化至内存(RDD)内存和硬盘(DataFrame)，效率较高，存在内存溢出等潜在风险。 persist操作可通过参数调节持久化地址，内存，硬盘，堆外内存，是否序列化，存储副本数，存储文件为临时文件，作业完成后数据文件自动删除。 check 阅读全文

posted @ 2021-10-13 19:51 riaris 阅读(1315) 评论(0) 推荐(0)

对知识保持敬畏

随笔分类 - spark

公告