随笔分类 -  spark

摘要:代码demo package com.spark.wordcount import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf objec 阅读全文
posted @ 2024-02-20 16:29 whiteY 阅读(119) 评论(0) 推荐(0)
摘要:从 Pyspark UDF 调用另一个自定义 Python 函数 Python 编码的 PySpark UDF 提供了调用其他Python 函数的能力,无论它们是内置函数还是来自外部库的用户定义函数。通过使用户能够利用现有的 Python 代码,此功能提高了 UDF 的模块化和可重用性。在分布式 P 阅读全文
posted @ 2023-11-08 17:06 whiteY 阅读(650) 评论(0) 推荐(0)
摘要:原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- 阅读全文
posted @ 2023-10-31 16:20 whiteY 阅读(1033) 评论(0) 推荐(0)
摘要:pyspark程序清洗多分隔符数据案例 原始数据 可以看到原始数据是以“|#$”多分隔符进行数据分割的 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 阅读全文
posted @ 2023-10-25 17:03 whiteY 阅读(155) 评论(0) 推荐(0)
摘要:广播变量broadcast 广播变量允许程序缓存一个只读变量在集群的每台机器上,而不是每个任务保存一个拷贝。借助广播变量,可以用一种更高效的方法来共享一些数据,比如一个全局配置文件。 from pyspark import SparkConf,SparkContext conf = SparkCon 阅读全文
posted @ 2023-10-24 15:38 whiteY 阅读(135) 评论(0) 推荐(0)
摘要:pyspark连接hive 想要spark能够连接上hive,就需要将hive的一些配置文件放到spark中,让spark可以通过配置文件中的metastore.uris找到hive的元数据库,从而访问hive. 1.将hive的conf文件夹下的hive-site.xml和hadoop/conf文 阅读全文
posted @ 2023-10-19 10:49 whiteY 阅读(901) 评论(0) 推荐(0)
摘要:Spark SQL模块 这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。 在RDD阶段,程序的执行入口对象是: SparkContext 在Spark 2.0后,推出了SparkSession对象,作为Spark编码的统一入 阅读全文
posted @ 2023-10-17 16:08 whiteY 阅读(294) 评论(0) 推荐(0)
摘要:from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1. col 阅读全文
posted @ 2023-10-16 17:50 whiteY 阅读(87) 评论(0) 推荐(0)
摘要:from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1.map对 阅读全文
posted @ 2023-10-16 17:11 whiteY 阅读(71) 评论(0) 推荐(0)
摘要:1.安装JDK https://www.cnblogs.com/whiteY/p/13332708.html 2.安装hadoop2.7 下载hadoop2.7.1安装包 链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ 提取码: 1234 解压 阅读全文
posted @ 2023-10-11 17:34 whiteY 阅读(1772) 评论(0) 推荐(0)
摘要:使用spark-sql操作文件进行sql查询 示例代码如下 if __name__ == '__main__': #SparkSession用于SparkSQL编程作为入口对象 #用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext #也可以直接进入pys 阅读全文
posted @ 2023-10-10 11:19 whiteY 阅读(140) 评论(0) 推荐(0)
摘要:安装anaconda 1.首先安装spark,在安装spark之前需要安装anaconda 可以到清华大学镜像源下载: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 以镜像源为例: 由于使用python3.8,anaconda下载的版本 阅读全文
posted @ 2023-10-08 18:06 whiteY 阅读(1058) 评论(0) 推荐(0)
摘要:一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2023-09-27 17:20 whiteY 阅读(34) 评论(0) 推荐(0)
摘要:###1.spark-sql启动报错 java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning 原因:在启动时 找不到tez的jar包 解决方法:将tez目录下的tez-api-0.9.1.jar 复制一份到 s 阅读全文
posted @ 2023-05-11 15:04 whiteY 阅读(217) 评论(0) 推荐(0)
摘要:使用spark-sql操作hive数据仓库的前提是需要把hive 配置文件hive-site.xml复制到spark conf目录下 进入到spark bin目录下使用命令开启一个spark-sql: ./spark-sql --master local[*] --jars /usr/hdp/cur 阅读全文
posted @ 2023-05-11 15:01 whiteY 阅读(165) 评论(0) 推荐(0)
摘要:使用spark-shell操作hive数据仓库的前提是需要把hive 配置文件hive-site.xml复制到sparkconf目录下 进入到spark bin目录下使用命令开启一个spark-shell: ./spark-shell --master local[2] --jars /home/i 阅读全文
posted @ 2023-05-11 11:44 whiteY 阅读(96) 评论(0) 推荐(0)