上一页 1 2 3 4 5 6 7 ··· 15 下一页
摘要: 从 Pyspark UDF 调用另一个自定义 Python 函数 Python 编码的 PySpark UDF 提供了调用其他Python 函数的能力,无论它们是内置函数还是来自外部库的用户定义函数。通过使用户能够利用现有的 Python 代码,此功能提高了 UDF 的模块化和可重用性。在分布式 P 阅读全文
posted @ 2023-11-08 17:06 whiteY 阅读(652) 评论(0) 推荐(0)
摘要: 原始数据如下 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 POD9_352858578708f144bb166a77bad743f4|#$2023- 阅读全文
posted @ 2023-10-31 16:20 whiteY 阅读(1039) 评论(0) 推荐(0)
摘要: pyspark程序清洗多分隔符数据案例 原始数据 可以看到原始数据是以“|#$”多分隔符进行数据分割的 POD9_6ec8794bd3297048d6ef7b6dff7b8be1|#$2023-10-24|#$0833|#$#|#$#|#$99999999999|#$#|#$12345678912 阅读全文
posted @ 2023-10-25 17:03 whiteY 阅读(155) 评论(0) 推荐(0)
摘要: 广播变量broadcast 广播变量允许程序缓存一个只读变量在集群的每台机器上,而不是每个任务保存一个拷贝。借助广播变量,可以用一种更高效的方法来共享一些数据,比如一个全局配置文件。 from pyspark import SparkConf,SparkContext conf = SparkCon 阅读全文
posted @ 2023-10-24 15:38 whiteY 阅读(137) 评论(0) 推荐(0)
摘要: hive原表结构 hive表加新字段interface_type alter table test.test_table add columns(interface_type string); hive表新表结构 阅读全文
posted @ 2023-10-20 10:01 whiteY 阅读(34) 评论(0) 推荐(0)
摘要: pyspark连接hive 想要spark能够连接上hive,就需要将hive的一些配置文件放到spark中,让spark可以通过配置文件中的metastore.uris找到hive的元数据库,从而访问hive. 1.将hive的conf文件夹下的hive-site.xml和hadoop/conf文 阅读全文
posted @ 2023-10-19 10:49 whiteY 阅读(906) 评论(0) 推荐(0)
摘要: Spark SQL模块 这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。 在RDD阶段,程序的执行入口对象是: SparkContext 在Spark 2.0后,推出了SparkSession对象,作为Spark编码的统一入 阅读全文
posted @ 2023-10-17 16:08 whiteY 阅读(295) 评论(0) 推荐(0)
摘要: from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1. col 阅读全文
posted @ 2023-10-16 17:50 whiteY 阅读(87) 评论(0) 推荐(0)
摘要: from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("test_SamShare").setMaster("local[4]") sc = SparkContext(conf=conf) # 1.map对 阅读全文
posted @ 2023-10-16 17:11 whiteY 阅读(72) 评论(0) 推荐(0)
摘要: 1.安装JDK https://www.cnblogs.com/whiteY/p/13332708.html 2.安装hadoop2.7 下载hadoop2.7.1安装包 链接: https://pan.baidu.com/s/1saGhaKbcvwrE4P3F5_UhZQ 提取码: 1234 解压 阅读全文
posted @ 2023-10-11 17:34 whiteY 阅读(1789) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 15 下一页