随笔分类 - spark
摘要:结论 功能 count(col1, col2) 可以统计 多个字段的非空记录 要求 count()内含多个字段时,若有一个字段的记录为Null 则该条记录不会被统计 count()内含多个字段时,非sparksql引擎需要加distinct 字段限制 count()内含多个字段时,和以下语句不同 s
阅读全文
摘要:sql 中 Union相关说明 结论 Union & Union all: 功能:将两个要连接的 SQL 语句拼接在一起, 要求:字段个数一样(强制),字段类型一致(非强制)int→double→string 输出:以第一个表的列名作为输出表的列名 区别:union会对拼接结果去重,union al
阅读全文
摘要:getItem()语法 pyspark.sql.Column.getItem 描述 An expression that gets an item at position ordinal out of a list, or gets an item by key out of a dict. 示例
阅读全文
摘要:Spark转换RDD到DF时,因数据类型不同带来的问题记录 问题描述 环境 注意!!! 在spark3+中,此bug是否还存在待证实。 spark2.4.5 pyspark 目标逻辑 在使用Spark过程中,需要将保存数据列表的RDD转换为DataFrame写入hive表中。 问题发生 在列表数据转
阅读全文
摘要:结论 cache操作通过调用persist实现,默认将数据持久化至内存(RDD)内存和硬盘(DataFrame),效率较高,存在内存溢出等潜在风险。 persist操作可通过参数调节持久化地址,内存,硬盘,堆外内存,是否序列化,存储副本数,存储文件为临时文件,作业完成后数据文件自动删除。 check
阅读全文

浙公网安备 33010602011771号