导航

2022年4月7日

摘要: #!/bin/bash #遍历文件夹及其子文件夹内所有文件,并查看各个文件行数、大小 # $1 传入目标文件夹路径 dst_dir=$1 #子函数getdir # $1 接受函数传入的参数 function getdir() { for element in `ls $1` do file=$1"/ 阅读全文

posted @ 2022-04-07 09:34 乔伊_413 阅读(355) 评论(0) 推荐(0) 编辑

2021年7月15日

摘要: 数仓分层和数据集市 传统分层有好几个,比如:ODS>DWD>DWS>ADS;这里我举例的为传统五层数仓 数据仓库分层(传统): ODS(Operation Data Store):原始数据层,备份作用;数据保持不变 DWD(Data Warehouse detail):对ODS的数据进行轻度清洗(去 阅读全文

posted @ 2021-07-15 15:02 乔伊_413 阅读(349) 评论(0) 推荐(0) 编辑

2021年7月8日

摘要: 本文参考:https://blog.csdn.net/dkl12/article/details/81381122,感谢大佬的分享 话不多说,上坑!!! 我在连接Hive的过程中主要是遇到了如下几个问题: 第一: 使用原始驱动文件的时候,需要配置Hadoop驱动和hive驱动。思路来说是没有问题的, 阅读全文

posted @ 2021-07-08 11:49 乔伊_413 阅读(2007) 评论(0) 推荐(0) 编辑

2020年12月11日

摘要: 在安装Kafka-eagle的时候遇见几个坑,在这里分享一下: 注意:版本问题,若按本文章不能解决,则着重查看版本的问题;这里只是提供解决针对问题的思路 Kafka版本:kafka_2.11-0.11.0.2 Kafka-eagle版本:kafka-eagle-bin-1.3.7 MySQL版本:5 阅读全文

posted @ 2020-12-11 16:34 乔伊_413 阅读(3307) 评论(1) 推荐(0) 编辑

2020年12月5日

摘要: 累加器:分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的新的副本 每个task更新副本的值之后,传回Driver端进行merge(合并) 3.原理类似于mapreduce,分布式改变, 阅读全文

posted @ 2020-12-05 21:10 乔伊_413 阅读(527) 评论(0) 推荐(0) 编辑

摘要: RDD的cache缓存 -如果一个RDD需要重复使用,那么需要从头再次执行来获取数据 -RDD对象可以重用,但是数据不可以重用 -RDD通过Cache或者Persist方法讲前面计算的结果缓存,把数据以缓存在JVM的堆内存中 -但是并不是这两方法被调用时立即缓存,而是触发后面的action算子时,该 阅读全文

posted @ 2020-12-05 20:48 乔伊_413 阅读(258) 评论(0) 推荐(0) 编辑

2020年12月4日

摘要: 部署模式对比 模式 Spark安装机器数 需要启动的进程 所属 应用场景 Local 1 无 Spark 测试 Standalone 3 Master&Worker Spark 单独部署 Yarn 1 Yarn&HDFS Hadoop 混合部署 端口号: - 4040(计算端口) : Spark查看 阅读全文

posted @ 2020-12-04 15:47 乔伊_413 阅读(586) 评论(0) 推荐(0) 编辑

摘要: 首先我们来看看Hadoop的相关简短回顾: 1. Hadoop是由Java语言编写,在分布式集群上存储海量数据并运行分布式分析应用框架 2. HDFS为其存储数据的分布式文件系统 3. 分布式计算框架为MapReduce 4. HBase一个基于HDFS的分布式非关系型数据库 5. Yarn作为分布 阅读全文

posted @ 2020-12-04 15:14 乔伊_413 阅读(665) 评论(0) 推荐(0) 编辑

摘要: 在开发中遇到自己给的一个txt文件大小达到19Mb 提醒:文件大小超过了2.56MB的默认值,有些功能不可靠 The file size(19.47MB ) exceeds configured limit(2.56MB). Code insight features are not acaliab 阅读全文

posted @ 2020-12-04 10:18 乔伊_413 阅读(2844) 评论(0) 推荐(1) 编辑

2020年12月1日

摘要: 单例介绍: 保证整个软件系统中,某个类只能存在一个对象实例 应用场景例如:一家店的店主只能有一个;一个车的驾驶员也只能有一个;等 类别: 饿汉式: 类加载时就完成了初始化,所以类加载比较慢,但获取对象的速度快。 不使用时就加载到内存,占用了资源 // 测试类 object TestSingle ex 阅读全文

posted @ 2020-12-01 23:13 乔伊_413 阅读(852) 评论(1) 推荐(0) 编辑