摘要: 蚂蚁森林植物申领统计 使用spark sql DSL完成以下作业 背景说明 下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。 table_name:user_low_carbon | 字段名 | 字段描述 | | | | | user_id | 用户 | | data_dt | 日期 | | l 阅读全文
posted @ 2022-07-17 22:55 a-tao必须奥利给 阅读(155) 评论(0) 推荐(0)
摘要: spark subject subject_1:==lag函数的使用场景(灵活)== 公司代码,年度,1月 12月的收入金额 burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12 85310 阅读全文
posted @ 2022-07-17 22:44 a-tao必须奥利给 阅读(59) 评论(0) 推荐(0)
摘要: spark 将项目打包到集群中运行 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo9Submit { def main(args: Array[String]): 阅读全文
posted @ 2022-07-17 22:33 a-tao必须奥利给 阅读(56) 评论(0) 推荐(0)
摘要: spark DSL DSL的数据来源 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo4DataSource { def main(args: Array[Strin 阅读全文
posted @ 2022-07-17 22:27 a-tao必须奥利给 阅读(159) 评论(0) 推荐(0)
摘要: spark-sql_DSL sparksql的单词统计 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1WordCount { def main(args: Arr 阅读全文
posted @ 2022-07-17 22:21 a-tao必须奥利给 阅读(92) 评论(0) 推荐(0)
摘要: spark sql整合hive 在spark sql中使用hive的元数据 spark sql是使用spark进行计算的,hive使用MR进行计算的 1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务 cd /usr/local 阅读全文
posted @ 2022-07-17 21:27 a-tao必须奥利给 阅读(407) 评论(0) 推荐(0)
摘要: Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行,上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马,和代码里面设置是一样的,代码中优先级高 spark-s 阅读全文
posted @ 2022-07-17 18:51 a-tao必须奥利给 阅读(247) 评论(0) 推荐(0)