MrSponge - 博客园

2024年1月9日

最近Spark任务调度任务跑的时间比平时慢很多，查看SparkUI发现有大量的Task被异常终止，查看日志发现了有几个问题，记录一下。根据日志，主要涉及任务被终止、YARN集群中的抢占问题以及网络连接错误。 1、任务被终止的警告: WARN Lost task 87.0 in stage 6.0 Read More

posted @ 2024-01-09 11:22 MrSponge Views(757) Comments(0) Diggs(0)

2023年12月25日

Docker常用基础命令

posted @ 2023-12-25 21:35 MrSponge Views(160) Comments(0) Diggs(0)

2023年12月11日

Docker的安装

初识Docker 这里推荐一个Docker中午文档何为Docker Docker 使用 Google 公司推出的 Go 语言进行开发实现，基于 Linux 内核的 cgroup，namespace，以及 OverlayFS 类的 Union FS 等技术，对进程进行封装隔离，属于操作系 Read More

posted @ 2023-12-11 15:02 MrSponge Views(54) Comments(0) Diggs(0)

2023年12月6日

PostgreSQL过滤出中文数据

筛选中文内容匹配一个或多个非中文字符 SELECT * FROM table1 WHERE field1 ~ '[^\u4e00-\u9fa5]+'; [\u4e00-\u9fa5] 表示匹配中文字符，加上前面的取反符号 ^ 即表示匹配不是中文字符，+表示一个或多个。\u4e00-\u9fa5 是 Read More

posted @ 2023-12-06 18:08 MrSponge Views(836) Comments(0) Diggs(0)

2023年12月4日

在Linux系统中通过 vim 进行文本替换(转)

在Linux系统中通过 vim 进行文本替换本文转自：https://www.cnblogs.com/wind-wang/p/5768000.html 在vim中，可以通过:set nu或:set number的命令来显示文本的行号在VIM中进行文本替换： 1. 替换当前行中的内容： :s/fr Read More

posted @ 2023-12-04 11:39 MrSponge Views(299) Comments(0) Diggs(0)

2023年11月27日

PostgreSQL数据库开启 a=null等价于a is null 功能

前言 PostgreSQL官方文档：http://www.postgres.cn/docs/11/functions-comparison.html 今天在预览PostgreSQL文档的时候看到了这个功能，平时写SQL都是a is [not] null来进行判断的，第一次见到可以这样，觉得挺新奇的就 Read More

posted @ 2023-11-27 11:22 MrSponge Views(121) Comments(0) Diggs(0)

2023年11月7日

PySpark判断Hdfs文件路径是否存在

背景从ScalaSpark代码转PySpark代码，同时实现连续读多个文件，避免因某些路径不存在导致程序终止。在Scala的Spark中可以直接导下面两个模块的包 import org.apache.hadoop.conf.Configuration import org.apache.hado Read More

posted @ 2023-11-07 15:52 MrSponge Views(497) Comments(0) Diggs(0)

2023年11月6日

Kafka常用命令

Kafka实操命令 kafka版本：scala2.11，kafka1.1.0 kafka_2.11-1.1.0.jar Kafka命令行操作 1）查看当前服务器中的所有topic kafka-topics.sh --zookeeper hadoop111:2181/kafka --list 2）创建 Read More

posted @ 2023-11-06 17:36 MrSponge Views(333) Comments(0) Diggs(0)

2023年6月11日

Yarn的几个常用命令

Yarn是一个资源管理器和任务调度器，如果你的大数据集群是用的Yarn来管理的，那下面有几个比较常用的命令。查看任务列表 yarn application -list 该命令是查看在所有Yarn上运行的任务信息，一般包括：Application-Id、Application-Name、Applic Read More

posted @ 2023-06-11 23:27 MrSponge Views(1495) Comments(0) Diggs(0)

2023年4月20日

Spark持久化

众所周知，RDD只会保留血缘关系，不存储计算结果。如果想要让计算结果持久化存储，那就要引入cache和persist方法。提前感受变化禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac Read More

posted @ 2023-04-20 14:01 MrSponge Views(34) Comments(0) Diggs(0)

Mr-Sponge

道阻且长啊~~~