最近预研一个新项目,需要装一个mysql,因为以前装过,原本以为很简单,大概半小时搞定,但是没想到搞了一晚上,记录一下完整步骤和遇到的问题。 1、软件版本和安装包准备 centos7 mysql5.7 官网下载地址:https://dev.mysql.com/downloads/mysql/5.7. Read More
posted @ 2020-02-29 13:58 George_sz Views(1875) Comments(0) Diggs(0) Edit
1、首先打开 hive DEBUG日志,执行以下命令,直接将日志输出到控制台 2、我们知道HIVE启动过程中,首先会先连接hive metastore,然后在连接HDFS namenode,我们可以根据日志时间点来判断和排查哪一步执行时间过长导致。 3、如果是hive metastore 连接过慢, Read More
posted @ 2020-01-29 21:39 George_sz Views(2204) Comments(0) Diggs(0) Edit
背景: 一次线上问题的综合排查排查,两个相同的系统的某个模块,数据量更少的系统查询更慢。 先说下整体思路: 1. 查看系统整理负载,网络有100左右毫秒的延迟,看起来影响不大 1. 查看正序运行整体情况,一次查询会经历3次FGC,有问题,解决后虽然会快一些但是还是有点慢 1. 跟踪调用栈,发现有点在 Read More
posted @ 2019-03-14 21:35 George_sz Views(40940) Comments(0) Diggs(5) Edit
若在Hive中执行INSERT OVERWRITE重写同一个表的数据时,有可能会造成数据丢失。 如 INSERT OVERWRITE TABLE table_name SELECT FROM table_name 一、新建一张分区表 二、插入一条记录 三、确认表数据及结构 四、在表中间新增字段 五、 Read More
posted @ 2019-01-06 17:23 George_sz Views(2437) Comments(0) Diggs(0) Edit
问题1:namenode进程故障 Namenode挂掉,Namenode gc日志里面YGC报错promotion failed 现象描述 NameNode进程挂掉,Namenode gc日志里面YGC报错promotion failed。 可能原因 Young gc的时候,需要复制eden区和fr Read More
posted @ 2018-09-30 20:10 George_sz Views(1084) Comments(0) Diggs(0) Edit
数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下: 是否真正的存在数据丢失问题,比如有很多时候可能是其他同事操作了测试环境,所以首先确保数据没有第三方干扰。 理清你的业务流程,数据流向,数据到底 Read More
posted @ 2018-06-26 17:13 George_sz Views(36408) Comments(0) Diggs(2) Edit
分为几个部分: 开发调优、资源调优、数据倾斜调优、shuffle调优 开发调优: 主要包括这几个方面 RDD lineage设计、算子的合理使用、特殊操作的优化等 避免创建重复的RDD,尽可能复用同一个RDD 一个RDD包含另外一个RDD,对多次使用的RDD进行持久化 内存(序列化),磁盘(序列化) Read More
posted @ 2018-05-04 11:00 George_sz Views(496) Comments(0) Diggs(0) Edit
分布式计算 标准差,信度 当一组数据无法完全加载到内存计算时,那我们就需要进行分布式计算,每台机器计算部分数据然后合成最后结果。例如典型的词频统计案例,但是当最后的结果不能根据每台机器的结果得出,那么就要拆分算法了。 ==拆分算法的标准:算法公式的粒度一定要能根据分布式的各个task处理得出== 拆 Read More
posted @ 2018-04-27 18:10 George_sz Views(515) Comments(0) Diggs(0) Edit
先说说遇到的坑 回顾下kafka topic:生产组:P0\P1 P14 一个消费组:c0 c1 c2 依据Consumer的负载均衡分配 消费顺序“c0:p0 p4 c1:p5 p9 c2:p10 p14 问题:突然发现读offset 堆积太多 增加消费者也没用 原因: C2节点物理故障,会把数据 Read More
posted @ 2018-04-11 11:33 George_sz Views(324) Comments(0) Diggs(0) Edit
hive 处理json数据总体来说有两个方向的路走 1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。 2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解 Read More
posted @ 2018-04-06 23:34 George_sz Views(23728) Comments(0) Diggs(0) Edit