随笔分类 -  大数据组件

大数据相关组件遇到的问题和相关总结
关于hive表查询,count(1) 或者count(*)的时候数据条数为0的解决方案
摘要:今天hue当中查询表的数据量,发现这个表的数据条数显示为0, 但是采用select的形式是可以查询到数据的。 原因是: select count(1)。有时候会发现往一个非分区表的路径上手动put一个textfile文件,但是count()出来的条数却不是文本里面的那么多。 在这个时刻就需要使用an 阅读全文

posted @ 2021-11-25 17:07 gxg123 阅读(2073) 评论(0) 推荐(0)

datax导数->从一个集群到另外一个集群(hdfs)出现数据缺失
摘要:今天通过datax从一个集群同步数据到另外一个集群当中,虽然任务执行成功了,但是一个很大的问题, (数据丢失)这怎么得了 解决思路: (1)是不是数据分隔符的问题,导致数据变少了。对了一下发现没问题 (2) 是不是因为字段长度不够数据没同步过来,把长度调的足够大,发现也不管用 (3) 突然在网上发现 阅读全文

posted @ 2021-11-25 16:52 gxg123 阅读(528) 评论(0) 推荐(0)

将hdfs上的数据上传到ftp服务器(是ftp不是sftpf服务器)的脚本
摘要:今天公司的业务要将hive逻辑生成的表数据做数据外发到对应的业务部门。(将数据上传到ftp服务器) 具体脚本如下: #!/bin/bash #/********************************************************************* #*模块名 :数 阅读全文

posted @ 2021-11-24 16:14 gxg123 阅读(645) 评论(0) 推荐(0)

关于hive时间的拆分(将两个时刻拆分成时间区间,做简单的操作)
摘要:今天有个同事问了一道面试题。面试题如下: 他的意思是将时间拆分成下面右边的样子,开始时间是整数,结束时间是多少就是多少。 看到这个题目第一眼感觉挺简单的,就是拆。 大概的思路如下: (1)给的是字符串,需要将数据拼接,拆分成具体的日期时间格式,然后才能操作。同时对数据开始时间进行规整操作 (2)第二 阅读全文

posted @ 2021-11-23 16:53 gxg123 阅读(1722) 评论(0) 推荐(0)

关于处理hdfs数据库异常的解决办法 Please check the logs or run fsck in order to identify the missing blocks. See the Hadoop FAQ for common causes and potential solutions.
摘要:今天突然发现,我们的flink程序挂掉了,然后先把程序启动起来,发现正常运行,然后去看什么问题,发现我们的集群当中的一台服务器挂掉了,然后重新启动了一台服务器 然后紧接着,我去看yarn资源管理器看失败的任务发现超时 Application application_1603766479824_000 阅读全文

posted @ 2021-03-08 15:47 gxg123 阅读(2286) 评论(0) 推荐(0)

linux服务器安装python虚拟环境
摘要:今天要部署一个服务化的接口程序,需要创建一个Python的虚拟环境。 1、安装虚拟环境 sudo pip install virtualenv sudo pip install virtualenvwrapper 2 安装完虚拟环境后,如果提示找不到mkvirtualenv命令,须配置环境变量: # 阅读全文

posted @ 2021-03-01 15:54 gxg123 阅读(7541) 评论(0) 推荐(0)

关于安装airflow遇到的问题
摘要:问题1: Python pylint requires Python '>=3.4.*' but the running Python is 2.7.12解决办法:(1)在linux服务器上执行Python,然后你会看到你的Python 版本为2.7.12.(2)之后输入:cd /usr/bin/ 阅读全文

posted @ 2021-01-04 16:42 gxg123 阅读(266) 评论(0) 推荐(0)

关于在aws的redshift当中批量获取数据库的建表语句的sql
摘要:这两天在建一个aws redshift 的测试环境,想把正式库里面的表的建表语句可以直接一键进行获取,然后在测试库当中创建测试环境然后搭建测试环境(批量操作) with mon as ( SELECT table_id ,REGEXP_REPLACE (schemaname, '^zzzzzzzz' 阅读全文

posted @ 2020-10-23 15:40 gxg123 阅读(743) 评论(0) 推荐(0)

关于通过flink 接入带ssl验证的kafka数据的相关问题总结。
摘要:场景描述:之前是做kafka不是通过ssl验证的方式进行接入的,所以就是正常的接受数据。发现我们通过aws服务器去访问阿里云服务器上的kafka的时候,我们服务器要把全部的网关 开放给阿里云服务器的kafka这样的话数据就很不安全。所以就从阿里买了kafka服务器这样就能通过公网去访问服务器,然后带 阅读全文

posted @ 2020-09-28 14:20 gxg123 阅读(4335) 评论(2) 推荐(2)

在windows 本地将文件上传到AWS的S3桶当中
摘要:最近公司想将windows本地的文件上传到AWS的S3桶当中。然后将S3当中的数据copy到具体的表当中。 #!/usr/bin/python# coding:utf-8import boto3import globfrom datetime import datetimeAWS_KEY = "S3 阅读全文

posted @ 2020-08-31 15:19 gxg123 阅读(1205) 评论(0) 推荐(0)

mongdb数据中文文档
摘要:mongdb数据中文文档记录 https://docs.jinmu.info/MongoDB-Manual-zh 阅读全文

posted @ 2020-08-17 15:53 gxg123 阅读(108) 评论(0) 推荐(0)

关于通过linux访问windows执行windows环境下的Python文件的相关操作。
摘要:今天有个需求需要将linux和windows 进行打通,然后执行windows上面的python文件。 我们是通过Python执行调用执行windows上面的东西,windows上面也是Python文件。 具体参考:https://blog.csdn.net/Together_CZ/article/ 阅读全文

posted @ 2020-05-28 14:40 gxg123 阅读(1053) 评论(0) 推荐(0)

关于1/2 local-dirs are bad: /mnt/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers报错的问题解决 flink
摘要:问题描述: 昨天晚上都下班了,突然领导发消息实时数据没有了,我去什么鬼,我记得我走的时候数据还是正常启动的,怎么就没数据那, 我们数据是通过flink 从kafka 消费数据,然后写入到hbase.怎么就没数据那什么情况。 然后我去yarn的资源管理器上面查看运行情况 发现,程序挂掉了,什么情况。好 阅读全文

posted @ 2020-05-22 18:13 gxg123 阅读(843) 评论(0) 推荐(0)

shell脚本删除hbase里面的数据(按照rowkey批量删除hbase的数据)
摘要:最近在做将kafka里面的业务日志写入到hbase 当中,然后要对hbase 里面的数据进行解析然后插入到数据库当中。 为了能节约磁盘空间想对hbase里面的数据进行删除,但是我们设置的rowkey是按照每小时 加日期 然后加hash码的方式组成的。例子如下: 这个地方我们没有办法通过框定一个时间范 阅读全文

posted @ 2020-04-22 15:59 gxg123 阅读(4013) 评论(0) 推荐(0)

关于在将excel数据导入到mysql数据库的时候中文变成问号的处理方式
摘要:场景描述,今天再将数据通过excel导入mysql 数据库的时候出现了中文变为问号的情况。 大概就是这个样子了。什么鬼 感觉就是字符集的问题。但是改了好多之后还是发现 问题并没有得到解决。 最后发现在建表的时候数据字符集和排序方式都是latin1 这是什么鬼。然后就手动将表的字符集改过来。改成utf 阅读全文

posted @ 2020-04-16 15:36 gxg123 阅读(1465) 评论(0) 推荐(0)

关于mysqldump当中遇到的坑SET @@SESSION.SQL_LOG_BIN= 0;解决方法
摘要:今天要做一个数据需求需要讲MySQL数据回传到另外一台mysql 服务器上面去,我想着数据也不多就用MySQLdump的形式生成文件 然后将数据传入到另外一台服务器上面去。 但是在传的时候就就出现了权限不是超级 用户的问题 ,但是我在数据库里面通过delete 的方式去删除数据的时候 是可以删除的 阅读全文

posted @ 2020-04-08 16:36 gxg123 阅读(3229) 评论(0) 推荐(0)

关于通过Python读取hbase里面的数据通过row_prefi前缀的方式读取数据的方式
摘要:业务介绍: 最近在做将线上的日志数据 通过flink的形式消费过来 ,然后灌入hbase 表当中。然后最近要解析这个日志想通过Python的方式读取hbase的日志进行解析 然后入库的方式做。 我们想一个小时做一次 但是那个rowkey 设计的真是卧槽。一点业务理念都没有 就是简单的字符串拼接起来的 阅读全文

posted @ 2020-04-03 18:03 gxg123 阅读(1182) 评论(0) 推荐(0)

关于mysql的数值相减,计算数值不准确的总结。
摘要:今天在做一个需求,在将数据库的数据做减法然后比对的时候发现,12.13-12=0.13 然后和最终的值0.13进行对比的时候居然不相等。这不是坑人吗 然后我们查看了表当中的这些数值存储的数据类型。发现所有的数据存储都是按照varchar的形式进行存储,导致mysql数据库在计算数据的减法的时候出现了 阅读全文

posted @ 2019-12-06 10:36 gxg123 阅读(6781) 评论(0) 推荐(0)

通过Python从redshift读取数据将数据写入mysql数据库(遇到在插入mysql数据库的时候数据类型处理问题)
摘要:这几天在将数据从redshift读取数据然后写入mysql数据库自动创建表的,然后把数据插入到数库的操作。 我们通过读取sql的形式,将数据读取进来是一个dataframe。 data = pd.read_sql(sql, rs_engine)然后再将这个dataframe写出去到mysql数据库通 阅读全文

posted @ 2019-12-04 17:10 gxg123 阅读(935) 评论(0) 推荐(0)

关于python的打包打包完生成exe文件之后,不能正常执行程序的问题解决。
摘要:今天在将写成的Python文件打包。然后给别人执行。打包了好多次都执行不了。真坑。 报的错是各种module找不到 Module Not Found Error: No module named 'openpyxl' 类似这种的问题。实在没有招: 按照安装文档 安装顺序为: 进去f盘,f: 进去相应 阅读全文

posted @ 2019-12-04 10:43 gxg123 阅读(10079) 评论(0) 推荐(0)

导航