摘要: 处理有分隔符的文本文档,默认分隔符是空格。 awk的一些内置变量 NF:字段数量(Number of Fields) NR:当前记录号(Number of Records) $0:当前记录(整行) $1, $2, ...:当前记录的第1个、第2个等字段 FS:字段分隔符(Field Separato 阅读全文
posted @ 2024-07-12 18:29 瑾明达 阅读(32) 评论(0) 推荐(0)
摘要: 1. yarn cluster模式提交spark任务 (1)执行脚本提交任务,实际是启动一个SparkSubmit的JVM进程。 (2)SparkSubmit类中的main方法反射调用YarnClusterApplication的start方法【在spark3.4.3中是start方法】。 (3)Y 阅读全文
posted @ 2024-07-12 18:12 瑾明达 阅读(453) 评论(0) 推荐(0)
摘要: 什么是事务? 事务(transaction)指逻辑上的一组操作,组成这组操作的各个单元,要不全部成功,要不全部不成功,并且要保证ACID。 ACID,指数据库事务正确执行的四个基本要素,包含:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Dur 阅读全文
posted @ 2023-06-15 17:27 瑾明达 阅读(163) 评论(0) 推荐(0)
摘要: Hive是什么? \t Hive 是一个基于 Hadoop 的数据仓库工具,它提供了类似 SQL 的查询语言 HQL(Hive Query Language),使得开发人员可以使用类 SQL 语言来查询和处理存储在大规模 分布式文件系统(如 HDFS)中的数据。 Hive有哪些功能? Hive 的主 阅读全文
posted @ 2023-05-06 17:34 瑾明达 阅读(339) 评论(0) 推荐(0)
摘要: 用于大数据集群(自定义Hadoop和CDH6)的Centos7虚拟机基础环境配置 博客ID 2 安装一些通用的软件并配置,然后复制为多个虚拟机 下载 CentOS-7-x86_64-DVD-1908.iso http://ftp.iij.ad.jp/pub/linux/centos-vault/7. 阅读全文
posted @ 2023-04-28 13:09 瑾明达 阅读(28) 评论(0) 推荐(0)
摘要: slick是scala语言操作数据库的库 阅读全文
posted @ 2022-10-26 15:58 瑾明达 阅读(34) 评论(0) 推荐(0)