spark - 随笔分类 - 硅谷工具人

跨集群表数据迁移

摘要：1.Spark方式从老集群写到新集群 spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test") 从新集群生成hive表： spark.read.parquet 阅读全文

posted @ 2023-02-02 10:41 硅谷工具人阅读(92) 评论(0) 推荐(0)

Spark saveAsTable写入表会提示表已存在的问题

摘要：使用以下方式写入表时，如果表不存在，但是表的hdfs目录下存在文件时会报错 df.write.mode("overwrite").partitionBy("pk_hour").saveAsTable("dw.test") 可以在Spark的参数中添加下面配置，以下仅仅是Spark2中生效： spar 阅读全文

posted @ 2023-02-02 10:31 硅谷工具人阅读(415) 评论(0) 推荐(0)

Conda安装py3spark环境操作

摘要：查看虚拟环境 conda env list 创建虚拟环境 conda create -n py3spark python=3.6 删除虚拟环境以及虚拟环境中所有包 conda remove -n py3spark --all 在虚拟环境中安装包 conda install -n py3spark p 阅读全文

posted @ 2023-01-05 17:25 硅谷工具人阅读(169) 评论(0) 推荐(0)

org.apache.spark.sql.AnalysisException: Can not create the managed table

摘要：spark执行过程中偶发性出现错误。 Traceback (most recent call last): File "/dfs/data9/nm-local-dir/usercache/hadoop/appcache/application_1666879209698_29104/containe 阅读全文

posted @ 2022-12-07 17:35 硅谷工具人阅读(643) 评论(0) 推荐(0)

spark中生成时间序列数据的函数stack和sequence

摘要：Sequence函数用Sequence函数生成时间序列函数，真的是非常简便易用，之前因为没找到，所以走了不少弯路。 println("指定开始和结束数字，生成对应的数字序列，通过第三个参数来控制步长") SparkUtil.executeSQL(""" |select explode(sequen 阅读全文

posted @ 2022-11-20 23:42 硅谷工具人阅读(599) 评论(0) 推荐(0)

Retrying task after failure: Waiting for lock. org.apache.iceberg.hive.HiveTableOperations$WaitingForLockException: Waiting for lock.

摘要：执行spark任务居然碰到了hive中表的被锁了，导致写数据时失败，这个还真是头一次碰到过这回事。错误信息如下： 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb 阅读全文

posted @ 2022-09-04 21:18 硅谷工具人阅读(497) 评论(0) 推荐(0)

折腾一晚上的事情，明白了一个道理

摘要：感悟：有时候很简单的笨办法，比那些高大上的技术要实用的多。有一个数据同步，大约4亿条记录，没有分区。现在要按照天，小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时，总想着要shuffle，合并小文件,于是是这样的： hive_df = spa 阅读全文

posted @ 2022-09-04 12:31 硅谷工具人阅读(2054) 评论(1) 推荐(3)

Spark SQL Dataset模块官方文档

摘要：PySpark版本： https://spark.apache.org/docs/2.4.8/api/python/pyspark.sql.html Scala Spark版本： https://spark.apache.org/docs/2.4.8/api/scala/index.html#org 阅读全文

posted @ 2022-08-31 15:32 硅谷工具人阅读(83) 评论(0) 推荐(0)

Spark在shell中调试

摘要：将要调试的程序打包，上传到服务器目录，/home/hadoop/test/test.jar 然后在脚本中指定--jars参数为该目录。 spark-shell --master yarn \ --queue prod \ --driver-memory 10G --executor-memory 1 阅读全文

posted @ 2022-05-03 11:18 硅谷工具人阅读(156) 评论(0) 推荐(0)

pySpark提交提交任务到Yarn

摘要：cluster模式： spark-submit \ --conf spark.dynamicAllocation.enabled=false \ --name pool_liquidity_info \ --master yarn \ --deploy-mode cluster \ --queue 阅读全文

posted @ 2022-05-02 22:59 硅谷工具人阅读(1033) 评论(0) 推荐(0)

spark SQL中时区问题

摘要：今天在DBVeaver中是使用hive运行sql正常，到了sparksql中运行，就变成了+8小时。为了解决时区问题，需要在spark的配置中添加以下设置，具体时区根据实际情况来。 conf.set("spark.sql.session.timeZone","UTC") 阅读全文

posted @ 2022-04-23 17:57 硅谷工具人阅读(849) 评论(0) 推荐(0)

让jupyter运行于指定的conda虚拟环境中

摘要：1. 安装操作短短几句，但是非常重要 conda create -n py36spark python=3.6 source activate py36spark conda install ipykernel deactivate conda install nb_conda_kernels # 阅读全文

posted @ 2022-03-20 01:28 硅谷工具人阅读(400) 评论(0) 推荐(0)

使用anaconda3安装pyspark

摘要：1. 下载安装：下载地址：wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh --no-check-certificate （最新版本：wget https://mir 阅读全文

posted @ 2022-03-19 22:44 硅谷工具人阅读(1828) 评论(0) 推荐(1)

pyspark安装python3 (不推荐)

摘要：python对应的版本兼容性是个头疼的问题，因此后续再使用pyarrow包的过程中安装出现了不兼容的问题。所以后续改为使用anaconda3中是适用conda创建虚拟环境来解决这个问题。参考另外一篇。 1. 下载python3地址：https://www.python.org/ftp/pytho 阅读全文

posted @ 2022-03-16 20:17 硅谷工具人阅读(812) 评论(0) 推荐(0)

Spark读取MySQL优化设置

摘要：Spark读取MySQL优化设置：参考：https://blog.csdn.net/bowenlaw/article/details/108076772 参考官方文档： http://spark.apache.org/docs/2.4.8/sql-data-sources-jdbc.html 阅读全文

posted @ 2021-11-04 16:09 硅谷工具人阅读(173) 评论(0) 推荐(0)

web3j和spark的okhttp3包冲突问题解决

摘要：最近以太坊的分叉，新增了一些字段，原来使用的是老版本 web3j-spring-boot-starter <groupId>org.web3j</groupId> <artifactId>web3j-spring-boot-starter</artifactId> <version>1.6.0</v 阅读全文

posted @ 2021-08-16 19:49 硅谷工具人阅读(1190) 评论(0) 推荐(0)

cdh集成Spark2.2后spark-shell启动报错解决

摘要：出错信息hadoop相关的包找不到。 [root@hadoop01 bin]# ./spark2-shell Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStre 阅读全文

posted @ 2020-10-15 11:15 硅谷工具人阅读(429) 评论(0) 推荐(0)

scala程序启动时，Could not locate executable null\bin\winutils.exe in the Hadoop binaries解决方案

摘要：原因：window本地无法获取hadoop的配置解决方法： 1）下载一个spark-2.4.6-bin-hadoop2.7压缩包到本地并解压 2）下载一个winutils.exe放到spark-2.4.6-bin-hadoop2.7\bin下 3）在scala程序中添加如下配置即可： def en 阅读全文

posted @ 2020-09-11 16:34 硅谷工具人阅读(196) 评论(0) 推荐(0)

idea中编译spark程序的POM文件配置

摘要：1. pom文件形式一如下：scala和java混合的spark程序之前使用其他配置始终有报找不到包的情况，尝试了一下如下配置可以打包成功。 <build> <sourceDirectory>src/main/scala</sourceDirectory> <testSourceDirectory> 阅读全文

posted @ 2020-09-01 21:44 硅谷工具人阅读(1054) 评论(0) 推荐(0)

spark开发实战技巧

摘要：1. table转map //事件权重 val eventWeightQuery = "select eventId,eventCode,eventName,weight from dwd.dwd_event_weight_dim"; val eventWeightMap = spark.sql(e 阅读全文

posted @ 2020-07-28 16:52 硅谷工具人阅读(258) 评论(0) 推荐(0)

时间的往事

所有命运赠送的礼物，早已在暗中标着价格。

随笔分类 - spark

公告