spark - 随笔分类 - whiteY

spark编写WordCount代码（scala）

摘要：代码demo package com.spark.wordcount import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf objec 阅读全文

posted @ 2024-02-20 16:29 whiteY 阅读(119) 评论(0) 推荐(0)

pyspark UDF调用自定义python函数

摘要：从 Pyspark UDF 调用另一个自定义 Python 函数 Python 编码的 PySpark UDF 提供了调用其他Python 函数的能力，无论它们是内置函数还是来自外部库的用户定义函数。通过使用户能够利用现有的 Python 代码，此功能提高了 UDF 的模块化和可重用性。在分布式 P 阅读全文

posted @ 2023-11-08 17:06 whiteY 阅读(650) 评论(0) 推荐(0)

pyspark数据写入文件及数据库hive

摘要：原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- 阅读全文

posted @ 2023-10-31 16:20 whiteY 阅读(1033) 评论(0) 推荐(0)

pyspark.sql处理多分隔符数据文件生成DF案例

摘要：pyspark程序清洗多分隔符数据案例原始数据可以看到原始数据是以“|#$”多分隔符进行数据分割的 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 阅读全文

posted @ 2023-10-25 17:03 whiteY 阅读(155) 评论(0) 推荐(0)

pyspark 广播变量和累加器

摘要：广播变量broadcast 广播变量允许程序缓存一个只读变量在集群的每台机器上，而不是每个任务保存一个拷贝。借助广播变量，可以用一种更高效的方法来共享一些数据，比如一个全局配置文件。 from pyspark import SparkConf,SparkContext conf = SparkCon 阅读全文

posted @ 2023-10-24 15:38 whiteY 阅读(135) 评论(0) 推荐(0)

pyspark 连接hive

摘要：pyspark连接hive 想要spark能够连接上hive，就需要将hive的一些配置文件放到spark中，让spark可以通过配置文件中的metastore.uris找到hive的元数据库，从而访问hive. 1.将hive的conf文件夹下的hive-site.xml和hadoop/conf文阅读全文

posted @ 2023-10-19 10:49 whiteY 阅读(901) 评论(0) 推荐(0)

spark sql使用--创建SparkDataFrame

摘要：Spark SQL模块这个模块是Spark中用来处理结构化数据的，提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。在RDD阶段，程序的执行入口对象是： SparkContext 在Spark 2.0后，推出了SparkSession对象，作为Spark编码的统一入阅读全文

posted @ 2023-10-17 16:08 whiteY 阅读(294) 评论(0) 推荐(0)

pyspark 常用action 算子

摘要：from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1. col 阅读全文

posted @ 2023-10-16 17:50 whiteY 阅读(87) 评论(0) 推荐(0)

pyspark 常用Transform算子

摘要：from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1.map对阅读全文

posted @ 2023-10-16 17:11 whiteY 阅读(71) 评论(0) 推荐(0)

windows 安装pyspark环境及pycharm配置

摘要：1.安装JDK https://www.cnblogs.com/whiteY/p/13332708.html 2.安装hadoop2.7 下载hadoop2.7.1安装包链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ 提取码: 1234 解压阅读全文

posted @ 2023-10-11 17:34 whiteY 阅读(1772) 评论(0) 推荐(0)

pyspark：spark-sql使用

摘要：使用spark-sql操作文件进行sql查询示例代码如下 if __name__ == '__main__': #SparkSession用于SparkSQL编程作为入口对象 #用于SparkCore编程，可以通过SparkSession对象中获取到SparkContext #也可以直接进入pys 阅读全文

posted @ 2023-10-10 11:19 whiteY 阅读(140) 评论(0) 推荐(0)

linux环境pyspark环境搭建

摘要：安装anaconda 1.首先安装spark，在安装spark之前需要安装anaconda 可以到清华大学镜像源下载： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 以镜像源为例：由于使用python3.8，anaconda下载的版本阅读全文

posted @ 2023-10-08 18:06 whiteY 阅读(1058) 评论(0) 推荐(0)

spark环境部署之wordCount初体验

摘要：一.安装spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文

posted @ 2023-09-27 17:20 whiteY 阅读(34) 评论(0) 推荐(0)

spark-sql 启动客户端报错问题

摘要：###1.spark-sql启动报错 java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning 原因：在启动时找不到tez的jar包解决方法：将tez目录下的tez-api-0.9.1.jar 复制一份到 s 阅读全文

posted @ 2023-05-11 15:04 whiteY 阅读(217) 评论(0) 推荐(0)

使用spark-sql客户端操作hive数据仓库

摘要：使用spark-sql操作hive数据仓库的前提是需要把hive 配置文件hive-site.xml复制到spark conf目录下进入到spark bin目录下使用命令开启一个spark-sql： ./spark-sql --master local[*] --jars /usr/hdp/cur 阅读全文

posted @ 2023-05-11 15:01 whiteY 阅读(165) 评论(0) 推荐(0)

Spark-shell的使用

摘要：使用spark-shell操作hive数据仓库的前提是需要把hive 配置文件hive-site.xml复制到sparkconf目录下进入到spark bin目录下使用命令开启一个spark-shell： ./spark-shell --master local[2] --jars /home/i 阅读全文

posted @ 2023-05-11 11:44 whiteY 阅读(96) 评论(0) 推荐(0)

whiteY

随笔分类 - spark

公告