☆☆☆★☆☆☆

唯有努力才能活成自己想要活成的样子

导航

2024年7月30日 #

orc使用java生成文件的示例代码

摘要: 包含了int等基本类型、string、数组 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hive.ql.exec.vector.Byte 阅读全文

posted @ 2024-07-30 18:28 Yr-Zhang 阅读(49) 评论(0) 推荐(0) 编辑

2024年5月31日 #

mapreduce的多种格式文件输出-自定义OutputFormat

摘要: /** * @description: mapreduce多种格式的文件输出方式 */ public class MultipleTypeOutputFormat<K, V> extends FileOutputFormat<K, V> { private static final String O 阅读全文

posted @ 2024-05-31 17:52 Yr-Zhang 阅读(13) 评论(0) 推荐(0) 编辑

2023年11月23日 #

azkaban 提交任务编写案例(flow 2.0)

摘要: config: #导出数据任务 user.to.proxy: foo day: $(new("org.joda.time.DateTime").minusDays(1).toString("yyyyMMdd")) jarPATH: ${working.dir}/jars/algorithm-fram 阅读全文

posted @ 2023-11-23 16:07 Yr-Zhang 阅读(67) 评论(0) 推荐(0) 编辑

2023年11月2日 #

spark代码示例---explode()炸裂函数使用

摘要: 数据结构,及bean的结构 root |-- eventName: string (nullable = true) |-- itmeList: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- d 阅读全文

posted @ 2023-11-02 12:54 Yr-Zhang 阅读(443) 评论(0) 推荐(0) 编辑

2023年10月27日 #

spark使用记录

摘要: 单词统计的示例 1:客户端登录 2:使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce 阅读全文

posted @ 2023-10-27 09:27 Yr-Zhang 阅读(7) 评论(0) 推荐(0) 编辑

2023年8月10日 #

postger数据库使用开窗函数删除表内重复数据

摘要: 使用id字段开窗(也可以多个字段,但是any函数和arry函数需要替换) select * from gatherdata.temp_zyr_export_1 a where a.linkid = any(array ( select linkid from ( select row_number( 阅读全文

posted @ 2023-08-10 14:52 Yr-Zhang 阅读(66) 评论(0) 推荐(0) 编辑

2023年5月10日 #

springboot 项目中返回前端对象错误显示是string格式

摘要: 原因是返回json对象后面跟了一段,如下图 这个错误藏的比较隐蔽,有个小的对象没有实现getter方法。在返回前端对象里,所有对象都得可以序列化和反序列化,对应的对象中所有属性是否都实现getter和setter等序列化。 阅读全文

posted @ 2023-05-10 15:36 Yr-Zhang 阅读(426) 评论(0) 推荐(0) 编辑

2023年5月9日 #

with recursive 递归查取所有子目录数据

摘要: WITH RECURSIVE T (node_id, p_id, path, DEPTH) AS (SELECT node_id,p_id,array[node_id || '|' || node_type || '|' || type_value] as path,1 AS DEPTH FROM 阅读全文

posted @ 2023-05-09 17:09 Yr-Zhang 阅读(48) 评论(0) 推荐(0) 编辑

2023年4月18日 #

hive使用trino查询时报分区不存在问题

摘要: 1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 阅读全文

posted @ 2023-04-18 10:06 Yr-Zhang 阅读(329) 评论(0) 推荐(0) 编辑

2023年4月6日 #

Spark on Yarn配置

摘要: 1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件: # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置: export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export 阅读全文

posted @ 2023-04-06 16:37 Yr-Zhang 阅读(324) 评论(0) 推荐(0) 编辑

2023年3月10日 #

springboot中使用线程池记录

摘要: 仅供自己记录 JDK自带的线程池ThreadPoolExecutor; Spring默认也是自带了一个线程池方便我们开发,它是ThreadPoolTaskExecutor; Spring更加推荐我们开发者使用ThreadPoolTaskExecutor类来创建线程池,其本质是对java.util.c 阅读全文

posted @ 2023-03-10 14:27 Yr-Zhang 阅读(218) 评论(0) 推荐(0) 编辑

2023年2月9日 #

java之oom的hprof日志查看

摘要: OOM 及一些解决方法原因大致为两方面:自身原因: 比如虚拟机本身可使用的内存太少。外在原因: 如应用使用的太多, 且用完没释放, 浪费了内存。此时就会造成内存泄露或者内存溢出。 Heap Dump(堆转储文件) 它是一个 Java 进程在某个时间点上的内存快照。Heap Dump 是有着多种类型的 阅读全文

posted @ 2023-02-09 15:43 Yr-Zhang 阅读(1122) 评论(0) 推荐(0) 编辑

2023年2月7日 #

Java进程CPU飙升到800%

摘要: 最近遇到springboot项目部署cup过高问题,首先代码环境中是实现ApplicationRunner类在run中使用到了线程池; 问题定位步骤: 在liunx命令窗口执行: 1)、首先通过top指令查看当前占用CPU较高的进程PID; top 2)、查看当前进程消耗资源的线程PID:top - 阅读全文

posted @ 2023-02-07 18:02 Yr-Zhang 阅读(248) 评论(0) 推荐(0) 编辑

2022年11月4日 #

volatile

摘要: 加关键字volatile Java 语言包含两种内在的同步机制:同步块(或方法)和 volatile 变量,相比于synchronized(synchronized通常称为重量级锁),volatile更轻量级,因为它不会引起线程上下文的切换和调度。但是volatile 变量的同步性较差(有时它更简单 阅读全文

posted @ 2022-11-04 11:40 Yr-Zhang 阅读(32) 评论(0) 推荐(0) 编辑

2022年9月9日 #

java中集合数组的学习

摘要: 数组打印: ①使用Arrays.toString()方式 它支持将任意类型的一纬数组转换为字符串,当遇到多维数组时使用Arrays.deepToString(); ②使用 Arrays.asList()方式 该方法是将数组转化为list,但它不适用于基本数据类型,且将数组与列表链接起来,还不支持ad 阅读全文

posted @ 2022-09-09 17:30 Yr-Zhang 阅读(12) 评论(0) 推荐(0) 编辑

2022年9月1日 #

pg的函数使用记录

摘要: string_agg 函数能将结果集某个字段的所有行连接成字符串,并以delimiter(分隔符)分隔,可用行转列 SELECT c1,string_agg(c2,',') FROM table;SELECT c_vin, string_agg(clct_date||'['||mileage_plu 阅读全文

posted @ 2022-09-01 10:33 Yr-Zhang 阅读(39) 评论(0) 推荐(0) 编辑

2022年8月31日 #

Postgresql中使用varchar(n)比varchar()和text的使用记录

摘要: PG中的字符类型: 名称描述 character varying(n), varchar(n) 有长度限制的变长字符类型 character(n), char(n) 定长字符类型,插入字符长度不够,空格补充 text 没有长度限制的变长字符类型 varchar(n) 和 char(n) 分别是cha 阅读全文

posted @ 2022-08-31 14:42 Yr-Zhang 阅读(294) 评论(0) 推荐(0) 编辑

2022年8月16日 #

oracle数据到hbase中利用MR

摘要: 参考学习:https://blog.csdn.net/huangliuyu00/article/details/79676644 阅读全文

posted @ 2022-08-16 10:46 Yr-Zhang 阅读(41) 评论(0) 推荐(0) 编辑

2022年8月5日 #

使用 Hbase Shell 命令创建预分区表

摘要: 对表进行预分区,可以防止单分区一次写入数据过大,hbase 集群本身还没来得及自动分裂,导致 region 宕掉的问题。 1、创建表时指定一个拆分点数组 split point 将定义n+1个区域,其中n是分割点的数量, point 为'10'时实际上是在指定字节分割'\x31\30' hbase> 阅读全文

posted @ 2022-08-05 10:08 Yr-Zhang 阅读(1239) 评论(0) 推荐(0) 编辑

2022年8月1日 #

mysql数据库学习

摘要: Mysql:数据库软件 安装: 卸载: 1.关闭mysql服务 1.手动关闭:我的电脑-->右键-->管理 2.cmd-->services.msc,打开服务面板 3.cmd-->net stop mysql。(注意获取cmd管理员权限) 2.卸载 3.删除数据存储文件 * 找到mysql的安装目录 阅读全文

posted @ 2022-08-01 14:15 Yr-Zhang 阅读(25) 评论(0) 推荐(0) 编辑

JDBC的操作数据库

摘要: * JDBC:Java DataBase Connective Java连接数据库 * 概念: * 使用Java代码操作数据库 * JDBC其实就是一套操作数据库的规范(接口) * 快速入门: 1.导入驱动jar包 2.注册驱动 3.创建连接对象 Connection 4.定义sql String 阅读全文

posted @ 2022-08-01 14:11 Yr-Zhang 阅读(128) 评论(0) 推荐(0) 编辑

2022年6月21日 #

shell写json内容到临时文件

摘要: 在写azkaban的flow时,对于依赖(dependsOn)的job可以传参,但是传参时必须是json格式,这个job就可以根据key=value获取到值进行下一步执行,本人记录一个案例(仅供自己记录) #!/usr/bin/env bash cd $(dirname $0) jarPath=$( 阅读全文

posted @ 2022-06-21 15:26 Yr-Zhang 阅读(575) 评论(0) 推荐(0) 编辑

2022年6月15日 #

hive操作记录

摘要: 1.在hive部署节点使用hive的shell,在./bin/hive目录下进入hive的客户端,执行我们的sql语句 --删除表 drop table if exists iov_gather_table; --创建数据库 create database if not exists db_hive 阅读全文

posted @ 2022-06-15 11:23 Yr-Zhang 阅读(147) 评论(0) 推荐(0) 编辑

2022年6月10日 #

MapReduce设置输出文件到多个文件夹下(二)

摘要: app类 package mrtest.multipleout; import com.zyr.baseutil.UrlUtil; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impor 阅读全文

posted @ 2022-06-10 16:57 Yr-Zhang 阅读(125) 评论(0) 推荐(0) 编辑

2022年4月28日 #

被误删的HDFS文件如何有效恢复

摘要: 1.回收站机制恢复 HDFS的回收站机制默认是关闭的,需要我们在配置文件core-site.xml中配置一些参数 2.快照机制恢复 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。一个快照是一个全部文件系统、或者某个目录在某一时刻的镜像。 为目录/bigdata 阅读全文

posted @ 2022-04-28 17:24 Yr-Zhang 阅读(767) 评论(0) 推荐(0) 编辑

hdfs的SecondaryNameNode学习

摘要: Hadoop在NameNode之外的节点上运行了一个Secondary NameNode进程,它的任务是为原NameNode内存中的文件系统元数据产生检查点。是一个辅助NameNode处理fsimage和编辑日志的节点,它从NameNode中拷贝fsimage和编辑日志到零食目录合并成一个新的fsi 阅读全文

posted @ 2022-04-28 16:47 Yr-Zhang 阅读(40) 评论(0) 推荐(0) 编辑

hdfs的NameNode学习

摘要: NameNode的文件结构包括VERSION、edits、fsimage、fstime文件目录 其中dfs.name.dir属性对应的目录列表中可查看到: 1.VERSION文件是JAVA属性文件,其中包含运行HDFS的版本信息。包含内容 namespaceID是文件系统的唯一标识符,当文件系统第一 阅读全文

posted @ 2022-04-28 16:31 Yr-Zhang 阅读(290) 评论(0) 推荐(0) 编辑

2022年4月1日 #

maven包冲突问题借

摘要: 在idea的setting中的插件查找到 maven helper,安装 重新启动idea,利用这个插件很快可以找到冲突的版本!!! 阅读全文

posted @ 2022-04-01 17:10 Yr-Zhang 阅读(20) 评论(0) 推荐(0) 编辑

2022年3月24日 #

java.io.IOException: Filesystem closed错误

摘要: 1.往集群提交任务的时候,需要使用多线程在hdfs上面读取一个资源文件。在读取该资源文件的时候,代码爆出如下异常: java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClie 阅读全文

posted @ 2022-03-24 09:33 Yr-Zhang 阅读(1393) 评论(0) 推荐(0) 编辑

2022年2月10日 #

shell脚本操作hbase

摘要: func ${datatype} ${date} & function func(){ #自动建表hbase t_gather_logdate exec $HBASE_HOME/bin/hbase shell <<! flush 't_$1_$2' exit ! } exec $HBASE_HOME 阅读全文

posted @ 2022-02-10 10:59 Yr-Zhang 阅读(247) 评论(0) 推荐(0) 编辑