随笔分类 - spark
摘要:1.Spark方式 从老集群写到新集群 spark.table("ods.test").write.mode("overwrite").save("hdfs://192.20.10.10/tmp/tabledata/ods_test") 从新集群生成hive表: spark.read.parquet
阅读全文
摘要:使用以下方式写入表时,如果表不存在,但是表的hdfs目录下存在文件时会报错 df.write.mode("overwrite").partitionBy("pk_hour").saveAsTable("dw.test") 可以在Spark的参数中添加下面配置,以下仅仅是Spark2中生效: spar
阅读全文
摘要:查看虚拟环境 conda env list 创建虚拟环境 conda create -n py3spark python=3.6 删除虚拟环境以及虚拟环境中所有包 conda remove -n py3spark --all 在虚拟环境中安装包 conda install -n py3spark p
阅读全文
摘要:spark执行过程中偶发性出现错误。 Traceback (most recent call last): File "/dfs/data9/nm-local-dir/usercache/hadoop/appcache/application_1666879209698_29104/containe
阅读全文
摘要:Sequence函数 用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。 println("指定开始和结束数字,生成对应的数字序列,通过第三个参数来控制步长") SparkUtil.executeSQL(""" |select explode(sequen
阅读全文
摘要:执行spark任务居然碰到了hive中表的被锁了,导致写数据时失败,这个还真是头一次碰到过这回事。 错误信息如下: 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb
阅读全文
摘要:感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。 有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。 源数据中本身就是很多几十k大小的非常多的小文件。 于是在读取时,总想着要shuffle,合并小文件,于是是这样的: hive_df = spa
阅读全文
摘要:PySpark版本: https://spark.apache.org/docs/2.4.8/api/python/pyspark.sql.html Scala Spark版本: https://spark.apache.org/docs/2.4.8/api/scala/index.html#org
阅读全文
摘要:将要调试的程序打包,上传到服务器目录,/home/hadoop/test/test.jar 然后在脚本中指定--jars参数为该目录。 spark-shell --master yarn \ --queue prod \ --driver-memory 10G --executor-memory 1
阅读全文
摘要:cluster模式: spark-submit \ --conf spark.dynamicAllocation.enabled=false \ --name pool_liquidity_info \ --master yarn \ --deploy-mode cluster \ --queue
阅读全文
摘要:今天在DBVeaver中是使用hive运行sql正常,到了sparksql中运行,就变成了+8小时。 为了解决时区问题,需要在spark的配置中添加以下设置,具体时区根据实际情况来。 conf.set("spark.sql.session.timeZone","UTC")
阅读全文
摘要:1. 安装操作 短短几句,但是非常重要 conda create -n py36spark python=3.6 source activate py36spark conda install ipykernel deactivate conda install nb_conda_kernels #
阅读全文
摘要:1. 下载安装: 下载地址:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh --no-check-certificate (最新版本:wget https://mir
阅读全文
摘要:python对应的版本兼容性是个头疼的问题,因此后续再使用pyarrow包的过程中安装出现了不兼容的问题。 所以后续改为使用anaconda3中是适用conda创建虚拟环境来解决这个问题。 参考另外一篇。 1. 下载python3地址:https://www.python.org/ftp/pytho
阅读全文
摘要:Spark读取MySQL优化设置: 参考:https://blog.csdn.net/bowenlaw/article/details/108076772 参考官方文档: http://spark.apache.org/docs/2.4.8/sql-data-sources-jdbc.html
阅读全文
摘要:最近以太坊的分叉,新增了一些字段,原来使用的是老版本 web3j-spring-boot-starter <groupId>org.web3j</groupId> <artifactId>web3j-spring-boot-starter</artifactId> <version>1.6.0</v
阅读全文
摘要:出错信息hadoop相关的包找不到。 [root@hadoop01 bin]# ./spark2-shell Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStre
阅读全文
摘要:原因:window本地无法获取hadoop的配置 解决方法: 1)下载一个spark-2.4.6-bin-hadoop2.7压缩包到本地并解压 2)下载一个winutils.exe放到spark-2.4.6-bin-hadoop2.7\bin下 3)在scala程序中添加如下配置即可: def en
阅读全文
摘要:1. pom文件形式一如下:scala和java混合的spark程序之前使用其他配置始终有报找不到包的情况,尝试了一下如下配置可以打包成功。 <build> <sourceDirectory>src/main/scala</sourceDirectory> <testSourceDirectory>
阅读全文
摘要:1. table转map //事件权重 val eventWeightQuery = "select eventId,eventCode,eventName,weight from dwd.dwd_event_weight_dim"; val eventWeightMap = spark.sql(e
阅读全文

浙公网安备 33010602011771号