Yr-Zhang - 博客园

pg数据库sql的时间转数字

摘要： select (CAST(EXTRACT(epoch FROM TO_TIMESTAMP(current_timestamp::text, 'YYYY-MM-DD HH24:MI:SS')) AS BIGINT) - 1*84600) 阅读全文

posted @ 2025-03-10 13:43 Yr-Zhang 阅读(43) 评论(0) 推荐(0)

orc使用java生成文件的示例代码

摘要：包含了int等基本类型、string、数组 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hive.ql.exec.vector.Byte 阅读全文

posted @ 2024-07-30 18:28 Yr-Zhang 阅读(220) 评论(0) 推荐(0)

mapreduce的多种格式文件输出-自定义OutputFormat

摘要： /** * @description: mapreduce多种格式的文件输出方式 */ public class MultipleTypeOutputFormat<K, V> extends FileOutputFormat<K, V> { private static final String O 阅读全文

posted @ 2024-05-31 17:52 Yr-Zhang 阅读(70) 评论(0) 推荐(0)

azkaban 提交任务编写案例(flow 2.0)

摘要： config: #导出数据任务 user.to.proxy: foo day: $(new("org.joda.time.DateTime").minusDays(1).toString("yyyyMMdd")) jarPATH: ${working.dir}/jars/algorithm-fram 阅读全文

posted @ 2023-11-23 16:07 Yr-Zhang 阅读(135) 评论(0) 推荐(0)

spark代码示例---explode()炸裂函数使用

posted @ 2023-11-02 12:54 Yr-Zhang 阅读(669) 评论(0) 推荐(0)

spark使用记录

摘要：单词统计的示例 1：客户端登录 2：使用链式编程输出结果文件 sc.textFile("hdfs://bda1node01.sqtxj.com:8020/txj/resources/chedai/chedai.csv").flatMap(_.split(",")).map((_,1)).reduce 阅读全文

posted @ 2023-10-27 09:27 Yr-Zhang 阅读(32) 评论(0) 推荐(0)

postger数据库使用开窗函数删除表内重复数据

摘要：使用id字段开窗（也可以多个字段，但是any函数和arry函数需要替换） select * from gatherdata.temp_zyr_export_1 a where a.linkid = any(array ( select linkid from ( select row_number( 阅读全文

posted @ 2023-08-10 14:52 Yr-Zhang 阅读(120) 评论(0) 推荐(0)

springboot 项目中返回前端对象错误显示是string格式

摘要：原因是返回json对象后面跟了一段，如下图这个错误藏的比较隐蔽，有个小的对象没有实现getter方法。在返回前端对象里，所有对象都得可以序列化和反序列化，对应的对象中所有属性是否都实现getter和setter等序列化。阅读全文

posted @ 2023-05-10 15:36 Yr-Zhang 阅读(519) 评论(0) 推荐(0)

with recursive 递归查取所有子目录数据

摘要： WITH RECURSIVE T (node_id, p_id, path, DEPTH) AS (SELECT node_id,p_id,array[node_id || '|' || node_type || '|' || type_value] as path,1 AS DEPTH FROM 阅读全文

posted @ 2023-05-09 17:09 Yr-Zhang 阅读(97) 评论(0) 推荐(0)

hive使用trino查询时报分区不存在问题

摘要： 1.使用sql界面查询时报错”分区不存在“ 2.后台查看文件不存在 $ hdfs dfs -s /warehouse/cleaned.db/dataitem1 202304/f=20230412 2se/warehouse/cleaned.db/dataitem1 202304/f=20230412 阅读全文

posted @ 2023-04-18 10:06 Yr-Zhang 阅读(531) 评论(0) 推荐(0)

Spark on Yarn配置

摘要： 1、Spark on Yarn配置 1.)在搭建好的Spark上修改spark-env.sh文件： # vim $SPARK_HOME/conf/spark-env.sh 添加以下配置： export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export 阅读全文

posted @ 2023-04-06 16:37 Yr-Zhang 阅读(390) 评论(0) 推荐(0)

springboot中使用线程池记录

摘要：仅供自己记录 JDK自带的线程池ThreadPoolExecutor； Spring默认也是自带了一个线程池方便我们开发，它是ThreadPoolTaskExecutor； Spring更加推荐我们开发者使用ThreadPoolTaskExecutor类来创建线程池，其本质是对java.util.c 阅读全文

posted @ 2023-03-10 14:27 Yr-Zhang 阅读(279) 评论(0) 推荐(0)

java之oom的hprof日志查看

摘要： OOM 及一些解决方法原因大致为两方面:自身原因: 比如虚拟机本身可使用的内存太少。外在原因: 如应用使用的太多, 且用完没释放, 浪费了内存。此时就会造成内存泄露或者内存溢出。 Heap Dump(堆转储文件) 它是一个 Java 进程在某个时间点上的内存快照。Heap Dump 是有着多种类型的阅读全文

posted @ 2023-02-09 15:43 Yr-Zhang 阅读(1456) 评论(0) 推荐(0)

Java进程CPU飙升到800%

摘要：最近遇到springboot项目部署cup过高问题，首先代码环境中是实现ApplicationRunner类在run中使用到了线程池；问题定位步骤：在liunx命令窗口执行： 1)、首先通过top指令查看当前占用CPU较高的进程PID； top 2)、查看当前进程消耗资源的线程PID：top - 阅读全文

posted @ 2023-02-07 18:02 Yr-Zhang 阅读(337) 评论(0) 推荐(0)

volatile

摘要：加关键字volatile Java 语言包含两种内在的同步机制：同步块（或方法）和 volatile 变量，相比于synchronized（synchronized通常称为重量级锁），volatile更轻量级，因为它不会引起线程上下文的切换和调度。但是volatile 变量的同步性较差（有时它更简单阅读全文

posted @ 2022-11-04 11:40 Yr-Zhang 阅读(58) 评论(0) 推荐(0)

java中集合数组的学习

摘要：数组打印： ①使用Arrays.toString()方式它支持将任意类型的一纬数组转换为字符串，当遇到多维数组时使用Arrays.deepToString()； ②使用 Arrays.asList()方式该方法是将数组转化为list，但它不适用于基本数据类型，且将数组与列表链接起来，还不支持ad 阅读全文

posted @ 2022-09-09 17:30 Yr-Zhang 阅读(25) 评论(0) 推荐(0)

pg的函数使用记录

摘要： string_agg 函数能将结果集某个字段的所有行连接成字符串，并以delimiter(分隔符)分隔，可用行转列 SELECT c1,string_agg(c2,',') FROM table；SELECT c_vin, string_agg(clct_date||'['||mileage_plu 阅读全文

posted @ 2022-09-01 10:33 Yr-Zhang 阅读(75) 评论(0) 推荐(0)

Postgresql中使用varchar(n)比varchar()和text的使用记录

摘要： PG中的字符类型：名称描述 character varying(n), varchar(n) 有长度限制的变长字符类型 character(n), char(n) 定长字符类型,插入字符长度不够，空格补充 text 没有长度限制的变长字符类型 varchar(n) 和 char(n) 分别是cha 阅读全文

posted @ 2022-08-31 14:42 Yr-Zhang 阅读(418) 评论(0) 推荐(0)

oracle数据到hbase中利用MR

摘要：参考学习:https://blog.csdn.net/huangliuyu00/article/details/79676644 阅读全文

posted @ 2022-08-16 10:46 Yr-Zhang 阅读(61) 评论(0) 推荐(0)

使用 Hbase Shell 命令创建预分区表

摘要：对表进行预分区，可以防止单分区一次写入数据过大，hbase 集群本身还没来得及自动分裂，导致 region 宕掉的问题。 1、创建表时指定一个拆分点数组 split point 将定义n+1个区域，其中n是分割点的数量， point 为'10'时实际上是在指定字节分割'\x31\30' hbase> 阅读全文

posted @ 2022-08-05 10:08 Yr-Zhang 阅读(1387) 评论(0) 推荐(0)

mysql数据库学习

摘要： Mysql：数据库软件安装：卸载： 1.关闭mysql服务 1.手动关闭：我的电脑-->右键-->管理 2.cmd-->services.msc,打开服务面板 3.cmd-->net stop mysql。(注意获取cmd管理员权限) 2.卸载 3.删除数据存储文件 * 找到mysql的安装目录阅读全文

posted @ 2022-08-01 14:15 Yr-Zhang 阅读(74) 评论(0) 推荐(0)

JDBC的操作数据库

摘要： * JDBC：Java DataBase Connective Java连接数据库 * 概念： * 使用Java代码操作数据库 * JDBC其实就是一套操作数据库的规范(接口) * 快速入门： 1.导入驱动jar包 2.注册驱动 3.创建连接对象 Connection 4.定义sql String 阅读全文

posted @ 2022-08-01 14:11 Yr-Zhang 阅读(157) 评论(0) 推荐(0)

shell写json内容到临时文件

摘要：在写azkaban的flow时，对于依赖(dependsOn)的job可以传参，但是传参时必须是json格式，这个job就可以根据key=value获取到值进行下一步执行，本人记录一个案例(仅供自己记录) #!/usr/bin/env bash cd $(dirname $0) jarPath=$( 阅读全文

posted @ 2022-06-21 15:26 Yr-Zhang 阅读(647) 评论(0) 推荐(0)

hive操作记录

摘要： 1.在hive部署节点使用hive的shell，在./bin/hive目录下进入hive的客户端，执行我们的sql语句 --删除表 drop table if exists iov_gather_table; --创建数据库 create database if not exists db_hive 阅读全文

posted @ 2022-06-15 11:23 Yr-Zhang 阅读(214) 评论(0) 推荐(0)

MapReduce设置输出文件到多个文件夹下(二)

摘要： app类 package mrtest.multipleout; import com.zyr.baseutil.UrlUtil; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; impor 阅读全文

posted @ 2022-06-10 16:57 Yr-Zhang 阅读(172) 评论(0) 推荐(0)

被误删的HDFS文件如何有效恢复

摘要： 1.回收站机制恢复 HDFS的回收站机制默认是关闭的，需要我们在配置文件core-site.xml中配置一些参数 2.快照机制恢复 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。一个快照是一个全部文件系统、或者某个目录在某一时刻的镜像。为目录/bigdata 阅读全文

posted @ 2022-04-28 17:24 Yr-Zhang 阅读(869) 评论(0) 推荐(0)

hdfs的SecondaryNameNode学习

摘要： Hadoop在NameNode之外的节点上运行了一个Secondary NameNode进程，它的任务是为原NameNode内存中的文件系统元数据产生检查点。是一个辅助NameNode处理fsimage和编辑日志的节点，它从NameNode中拷贝fsimage和编辑日志到零食目录合并成一个新的fsi 阅读全文

posted @ 2022-04-28 16:47 Yr-Zhang 阅读(69) 评论(0) 推荐(0)

hdfs的NameNode学习

摘要： NameNode的文件结构包括VERSION、edits、fsimage、fstime文件目录其中dfs.name.dir属性对应的目录列表中可查看到： 1.VERSION文件是JAVA属性文件，其中包含运行HDFS的版本信息。包含内容 namespaceID是文件系统的唯一标识符，当文件系统第一阅读全文

posted @ 2022-04-28 16:31 Yr-Zhang 阅读(378) 评论(0) 推荐(0)

maven包冲突问题借

摘要：在idea的setting中的插件查找到 maven helper，安装重新启动idea，利用这个插件很快可以找到冲突的版本!!! 阅读全文

posted @ 2022-04-01 17:10 Yr-Zhang 阅读(35) 评论(0) 推荐(0)

java.io.IOException: Filesystem closed错误

摘要： 1.往集群提交任务的时候，需要使用多线程在hdfs上面读取一个资源文件。在读取该资源文件的时候，代码爆出如下异常： java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClie 阅读全文

posted @ 2022-03-24 09:33 Yr-Zhang 阅读(1602) 评论(0) 推荐(0)

☆☆☆★☆☆☆

导航

公告