最近Spark任务调度任务跑的时间比平时慢很多,查看SparkUI发现有大量的Task被异常终止,查看日志发现了有几个问题,记录一下。 根据日志,主要涉及任务被终止、YARN集群中的抢占问题以及网络连接错误。 1、任务被终止的警告: WARN Lost task 87.0 in stage 6.0 Read More
posted @ 2024-01-09 11:22 MrSponge Views(757) Comments(0) Diggs(0)
Docker常用命令 常规帮助启动类命令 启|停|重启|状态|开机自启命令 systemctl start|stop|restart|status|enable docker 查看docker概要信息 docker info 查看docker总体帮助文档 docker --help 查看docker Read More
posted @ 2023-12-25 21:35 MrSponge Views(160) Comments(0) Diggs(0)
初识Docker ​ 这里推荐一个Docker中午文档 何为Docker ​ Docker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,以及 OverlayFS 类的 Union FS 等技术,对进程进行封装隔离,属于 操作系 Read More
posted @ 2023-12-11 15:02 MrSponge Views(54) Comments(0) Diggs(0)
筛选中文内容 匹配一个或多个非中文字符 SELECT * FROM table1 WHERE field1 ~ '[^\u4e00-\u9fa5]+'; [\u4e00-\u9fa5] 表示匹配中文字符,加上前面的取反符号 ^ 即表示匹配不是中文字符,+表示一个或多个。\u4e00-\u9fa5 是 Read More
posted @ 2023-12-06 18:08 MrSponge Views(836) Comments(0) Diggs(0)
在Linux系统中通过 vim 进行文本替换 本文转自:https://www.cnblogs.com/wind-wang/p/5768000.html 在vim中,可以通过:set nu或:set number的命令来显示文本的行号 在VIM中进行文本替换: 1. 替换当前行中的内容: :s/fr Read More
posted @ 2023-12-04 11:39 MrSponge Views(299) Comments(0) Diggs(0)
前言 PostgreSQL官方文档:http://www.postgres.cn/docs/11/functions-comparison.html 今天在预览PostgreSQL文档的时候看到了这个功能,平时写SQL都是a is [not] null来进行判断的,第一次见到可以这样,觉得挺新奇的就 Read More
posted @ 2023-11-27 11:22 MrSponge Views(121) Comments(0) Diggs(0)
背景 从ScalaSpark代码转PySpark代码,同时实现连续读多个文件,避免因某些路径不存在导致程序终止。 在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado Read More
posted @ 2023-11-07 15:52 MrSponge Views(497) Comments(0) Diggs(0)
Kafka实操命令 kafka版本:scala2.11,kafka1.1.0 kafka_2.11-1.1.0.jar Kafka命令行操作 1)查看当前服务器中的所有topic kafka-topics.sh --zookeeper hadoop111:2181/kafka --list 2)创建 Read More
posted @ 2023-11-06 17:36 MrSponge Views(333) Comments(0) Diggs(0)
Yarn是一个资源管理器和任务调度器,如果你的大数据集群是用的Yarn来管理的,那下面有几个比较常用的命令。 查看任务列表 yarn application -list 该命令是查看在所有Yarn上运行的任务信息,一般包括:Application-Id、Application-Name、Applic Read More
posted @ 2023-06-11 23:27 MrSponge Views(1495) Comments(0) Diggs(0)
众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac Read More
posted @ 2023-04-20 14:01 MrSponge Views(34) Comments(0) Diggs(0)