☆☆☆★☆☆☆

唯有努力才能活成自己想要活成的样子

导航

2021年12月2日 #

mysql传输大数据报错oom问题

摘要: 如下错: 通过修改mysql环境变量设置让mysql立即生效,不用重启mysql 查看:show VARIABLES like '%max_allowed_packet%'; 修改:set global max_allowed_packet = 200*1024*1024 (200M) 阅读全文

posted @ 2021-12-02 11:42 Yr-Zhang 阅读(117) 评论(0) 推荐(0) 编辑

2021年11月19日 #

oracle的clob字段写入与读取

摘要: lob字段基本分为clob和blob,分别存储大文本和二进制流(图片)内容,以下记录下代码,仅供自己查看 /** * 读取clob */public String selectClob() { String content = "null"; try { connection = DB14Util. 阅读全文

posted @ 2021-11-19 11:07 Yr-Zhang 阅读(1949) 评论(0) 推荐(0) 编辑

2021年9月14日 #

非Hive Metastore Server节点执行load命令时出现“cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in switch database statement”

摘要: 我的脚本如下 dbname=bigdata month=$(date -d 0"month ago"${date} +%Y%m) #删除分区及数据 ssh root@bda1node06 "hive -e 'use "${dbname}";ALTER TABLE tablename DROP IF 阅读全文

posted @ 2021-09-14 11:12 Yr-Zhang 阅读(1616) 评论(0) 推荐(0) 编辑

2021年8月11日 #

flink的sink

摘要: sink作用: flink三大逻辑结构之一(source,transform,sink),功能就是负责把flink处理后的数据输出到外部系统中,flink 的sink和source的代码结构类似 首先看下sink的类继承图如下: 核心类: SinkFunction 是一个接口,类似于SourceFu 阅读全文

posted @ 2021-08-11 09:57 Yr-Zhang 阅读(338) 评论(0) 推荐(0) 编辑

2021年8月6日 #

hadoop执行普通jar时指定内存大小

摘要: 执行jar命令 export HADOOP_HEAPSIZE="4096"export HADOOP_CLIENT_OPTS="-Xmx5120m -XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=256m"hadoop jar ${jarPath} ${mai 阅读全文

posted @ 2021-08-06 15:50 Yr-Zhang 阅读(384) 评论(0) 推荐(0) 编辑

2021年8月5日 #

yarn 命令使用记录(2)

摘要: 移动app到对应的队列: yarn application -movetoqueue application_1627971831851_0205 -queue root.default 列出所有Application yarn application -list Kill掉Application 阅读全文

posted @ 2021-08-05 13:14 Yr-Zhang 阅读(68) 评论(0) 推荐(0) 编辑

2021年6月21日 #

MapReduce处理大(小)文件的方式

摘要: 1.输入大文件时 conf.setLong(FileInputFormat.SPLIT_MINSIZE,1024*1024*256L); //小于这个数据时进行合并 conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*1024*1024); //大于这个数 阅读全文

posted @ 2021-06-21 17:44 Yr-Zhang 阅读(305) 评论(0) 推荐(0) 编辑

2021年6月16日 #

查看修复HDFS中丢失的块

摘要: 检测缺失块 hdfs fsck -list-corruptfileblocks;hdfs fsck / ; 查看某一个文件的情况 hdfs fsck /路径/文件名 -locations -blocks -files 手动修复 hdfs debug recoverLease -path 文件位置 - 阅读全文

posted @ 2021-06-16 15:55 Yr-Zhang 阅读(1212) 评论(0) 推荐(0) 编辑

2021年5月31日 #

yarn参数调节

摘要: scheduler设置: 单个容器(container)可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值 yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb 单个任务可申 阅读全文

posted @ 2021-05-31 16:21 Yr-Zhang 阅读(403) 评论(0) 推荐(0) 编辑

2021年4月6日 #

ArrayList线程安全问题解决

摘要: 多个线程操作同一个list会出现并发修改异常(java.util.ConcurrentModificationException) 1.Vector 用Vector类来实现,它的add()方法加了synchronized关键字修饰,所以能保证线程安全。 public static void main 阅读全文

posted @ 2021-04-06 09:26 Yr-Zhang 阅读(818) 评论(0) 推荐(0) 编辑

2021年4月2日 #

Python学习之Anaconda

摘要: Anaconda是Python的包管理器和环境管理器。 Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包 Anaconda 解决了多版本Python并存、切换的问题 A 阅读全文

posted @ 2021-04-02 19:27 Yr-Zhang 阅读(125) 评论(0) 推荐(0) 编辑

2020年11月20日 #

shell for in 用法总结

摘要: 1、遍历按空格分隔的字符串: #!/bin/bash s="111 222 333" for server in $s do echo$s done 2、遍历字符串列表、用空格分隔: #!/bin/bash for mm in a b c do echo$mm done 3、遍历参数列表: #!/b 阅读全文

posted @ 2020-11-20 14:28 Yr-Zhang 阅读(2797) 评论(0) 推荐(0) 编辑

2020年11月19日 #

CDH使用MySQL数据库的使用记录

摘要: 本人记录了下CDH配置Mysql的问题,仅供自己参看 1.mysql的重要配置文件my.cnf(默认在/etc/my.cnf),记录了datadir 目录等, 2.datadir 目录记录mysql的安装位置,默认情况下是 /var/lib/mysql,需要位于具有足够可用空间的分区上 3.设置My 阅读全文

posted @ 2020-11-19 17:03 Yr-Zhang 阅读(475) 评论(0) 推荐(0) 编辑

2020年11月13日 #

maven之repository和mirror

摘要: 1.pom.xml里的repositories元素,里面可以包含多少repository(至少默认包含了中央仓库,每个repository都有一个id(此id非常重要)) 2.maven获取真正起作用的repository集合流程: 首先会获取pom.xml里的repository集合,然后在set 阅读全文

posted @ 2020-11-13 16:55 Yr-Zhang 阅读(1022) 评论(0) 推荐(0) 编辑

2020年11月10日 #

GeoTools简介

摘要: 记录下本人使用geotools工件时的操作步骤,仅为自己参考,有错误望斧正! 参考:https://blog.csdn.net/a13407142317/article/details/109575751 官方完整资料比较充分和详细 :https://docs.geotools.org/ 下载地址: 阅读全文

posted @ 2020-11-10 16:24 Yr-Zhang 阅读(720) 评论(0) 推荐(0) 编辑

2020年11月4日 #

shell获取当前脚本执行位置

摘要: path1=$(cd `dirname $0`;pwd) #cd `dirname $0`;pwd 先cd到当前路径然后pwd,打印成绝对路径path2=$(dirname $0) #dirname $0 只是获取的当前脚本的相对路径path3=$(dirname $(readlink -f "$p 阅读全文

posted @ 2020-11-04 11:24 Yr-Zhang 阅读(1499) 评论(0) 推荐(0) 编辑

2020年11月3日 #

H2数据库学习

摘要: 安装 官网:https://h2database.com/html/main.html H2数据库是一个开源的关系型数据库; H2是一个采用java语言编写的嵌入式数据库引擎,只是一个类库(即只有一个 jar 文件),可以直接嵌入到应用项目中,不受平台的限制 应用场景 可以同应用程序打包在一起发布, 阅读全文

posted @ 2020-11-03 15:57 Yr-Zhang 阅读(185) 评论(0) 推荐(0) 编辑

2020年10月22日 #

oracle中merge into用法(用A|B表去更新A|B表或插入A|B表)

摘要: 参考:https://www.cnblogs.com/kongxc/p/9237941.html merge into的sql格式: MERGE INTO [target-table] A USING [source-table sql] B ON([conditional expression] 阅读全文

posted @ 2020-10-22 11:14 Yr-Zhang 阅读(237) 评论(0) 推荐(0) 编辑

Linux系统扩展oracle数据库所在的分区

摘要: 注意:lvm类型分区能用这种办法扩容 问题:将oracle数据库部署在了/root/oracle分区,后期发现磁盘空间不够用,添加新硬盘将分区/root/oracle扩容。 /dev/sdb为我新加的硬盘 查看系统空间使用命令: lsblk 添加硬盘并分区更改为lvm格式(对新加的硬盘操作): [r 阅读全文

posted @ 2020-10-22 10:33 Yr-Zhang 阅读(329) 评论(0) 推荐(0) 编辑

2020年9月24日 #

OLAP引擎学习记录

摘要: OLAP一般分为即席查询和固化查询 即席查询:通过手写sql完成一些临时的数据分析需求,对查询时间没有严格要求 固化查询:指的是一些固化下来的取数、看数需求,这类的sql固定模式,对响应时间有较高要 主流的OLAP引擎主要有下面三点 MPP架构系统(Presto/Impala/SparkSQL/Dr 阅读全文

posted @ 2020-09-24 14:34 Yr-Zhang 阅读(137) 评论(0) 推荐(0) 编辑

2020年8月18日 #

sql记录

摘要: sql 查询重复数据 select * from 数据表 WHERE 重复记录字段 in ( select 重复记录字段 from 数据表 group by 重复记录字段 having count(重复记录字段)>1) select temp.name, count(1)as num from ta 阅读全文

posted @ 2020-08-18 15:49 Yr-Zhang 阅读(102) 评论(0) 推荐(0) 编辑

2020年8月12日 #

Linux通过df命令查看显示磁盘空间满,但实际未占用问题

摘要: 问题产生:让同事查看挂载点 “/”占用100%的原因,查看之后发现是/opt/base/tbase/install/tbase_bin_v2.0/下的一个日志文件太大占用导致,然后同事就直接执行了rm命令,结果导致文件删了,但是挂载点占用率没有降下来,简直.... 网上问度娘,得出如下总结(仅个人参 阅读全文

posted @ 2020-08-12 10:56 Yr-Zhang 阅读(2034) 评论(0) 推荐(0) 编辑

2020年7月15日 #

MR错误问题的记录

摘要: hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限,系统一般默认数量是1024,(用ulimit -a可以看到) 修改系统文件打开个数: vi /etc/security/limits 阅读全文

posted @ 2020-07-15 10:17 Yr-Zhang 阅读(256) 评论(0) 推荐(0) 编辑

2020年7月14日 #

mvn引起错误问题的记录

摘要: mvn命令: mvn dependency:tree -Dverbose //列出项目下所有依赖树 解决HBase/Hadoop Guava依赖冲突解决办法https://www.jianshu.com/p/f73bb7776a3e 阅读全文

posted @ 2020-07-14 17:00 Yr-Zhang 阅读(149) 评论(0) 推荐(0) 编辑

scala学习框架

摘要: 阅读全文

posted @ 2020-07-14 16:53 Yr-Zhang 阅读(242) 评论(0) 推荐(0) 编辑

java线程学习

摘要: //线程池创建,使用线程池提交任务,线程使用Callable接口,线程执行有返回值,等待所有子线程执行完成再继续执行主线程 public static void main(String[] args) { int corePoolSize = 3; int maximumPoolSize = Run 阅读全文

posted @ 2020-07-14 16:08 Yr-Zhang 阅读(196) 评论(0) 推荐(0) 编辑

集群环境问题解决积累(1)

摘要: 退役之后的节点再次加入集群出现该节点命令不能执行 转载:https://blog.csdn.net/Hadoop_SC/article/details/100638970 阅读全文

posted @ 2020-07-14 15:17 Yr-Zhang 阅读(165) 评论(0) 推荐(0) 编辑

hbase检查修复坏块问题

摘要: hbase检查hbase hbck 阅读全文

posted @ 2020-07-14 14:55 Yr-Zhang 阅读(517) 评论(0) 推荐(0) 编辑

2020年7月10日 #

Mapreduce中Map与Reduce的个数制定

摘要: 操作: MapReduce框架将文件分为多个splits,并为每个splits创建一个Mapper,所以Mappers的个数直接由splits的数目决定。而Reducers的数目可以通过job.setNumReduceTasks()函数设置 1、Map任务的个数: 理论值: 1、Mapper数据过大 阅读全文

posted @ 2020-07-10 16:09 Yr-Zhang 阅读(3285) 评论(0) 推荐(0) 编辑

mapreduce参数记录

摘要: mapred-default.xml: 版本 参数位置 参数名 默认值 说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks(mapreduce.job.reduces) 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr 阅读全文

posted @ 2020-07-10 14:38 Yr-Zhang 阅读(180) 评论(0) 推荐(0) 编辑