随笔分类 -  大数据组件

大数据相关组件遇到的问题和相关总结
通过Python读取sqlserver数据写成json文件的总结
摘要:最近在做将sqlserver的数据迁移到redshift上面,然后再做的过程当中出现了很多问题。(通过sqlserver 读取数据,然后写成json文件然后长传到S3上面,然后通过S3copy的形式将数据写入到redshift上面) 第一次通过csv的形式然后通过s3copy的形式将数据长传,里面出 阅读全文

posted @ 2019-11-12 20:19 gxg123 阅读(1316) 评论(0) 推荐(0)

关于在mysql数据库当中,批量查询一堆表的表名称和对应的行数的时候,批量查询的和单独查询出来的数据有差异
摘要:今天别人给我一堆表,然后我想批量的查询出这些表的行数,我觉得这个很容易啊,mysql有一个专门存各个表对应的详细的内容: 查询语句如下: 但是那,这样查询出来的数据让我吃惊的是,数据非常的不准确,连基本的参考价值都没有 最后在网上查询了一点资料说,是因为引擎不同导致的, ENGINE=InnoDB( 阅读全文

posted @ 2019-08-16 16:33 gxg123 阅读(972) 评论(0) 推荐(0)

通过Python读取csv文件报错的File "D:\Python\lib\codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in
摘要:今天在做将csv文件当中的数据插入到数据库当中,但是在读取csv文件的内容的时候报错了,一眼看过去好像是因为编码的原因,就在Python文件的上面加上编码的相关配置,但是还是报错 首先想到的肯定是中文的原因,然后再读取的时候就在读取文件的时候加上编码如下: 但是问题依然没有解决。看来还是数据源的编码 阅读全文

posted @ 2019-08-13 19:29 gxg123 阅读(7106) 评论(0) 推荐(0)

关于redshift数据库和mysql数据库当中的concat函数的使用语法总结
摘要:今天在做redshift 对某一个字段进行分组,然后合并成一行数据(之前是mysql做的,现在在这里记录一下) 阅读全文

posted @ 2019-08-12 12:03 gxg123 阅读(624) 评论(0) 推荐(0)

关于在kettle当中使用循环去读取数据做etl操作。
摘要:最近在做kettle相关的数据迁移。然后要循环的去读取数据把数据进行迁移操作。这里是通过js代码控制循环读取数据。 表数量校验的截图如下: 两个转换当中数据输入如下: 获取表名称的转换 上面是根据表当中的id获取到具体的表名称是什么,下面是是获取将要导入的表全部数据。 至此问题得到解决。 阅读全文

posted @ 2019-08-06 16:37 gxg123 阅读(5016) 评论(0) 推荐(0)

关于aws当中的redshift自定义函数的部署和创建(UDF)
摘要:今天在做的时候碰到,如果一个字符串是日期时间类型,但是他的这种形式是错误的,就比如:2019-02-31 我们都知道2月份是没有31号的,所以我们要给日期附一个默认值。或者因为数据库当中的使用了varchar的类型随心所欲的乱写 各种各样的数据都有。这对于数据清洗是一件非常麻烦的事情。所以我们写一个 阅读全文

posted @ 2019-07-31 15:50 gxg123 阅读(829) 评论(0) 推荐(0)

关于Python当中时间戳和服务器上面的时间戳的处理
摘要:今天好奇怪,在处理数据库当中的时间的时候(时间戳)突然发现服务器上面的时间比Python当中的时间多了8个小时。 服务器上的时间戳为:1550048061266,翻译出来的时间为 但是如果用Python处理这个数据处理出来的结果如下 Python处理出来的数据比正常的服务器的时间多了8个小时(这里考 阅读全文

posted @ 2019-07-31 12:16 gxg123 阅读(778) 评论(0) 推荐(0)

关于Python脚本通过crontab调度的时候报错UnicodeEncodeError: ‘ascii’ codec can’t encode characters in positi的解决方案
摘要:昨天通过Python写了了一段脚本,然后通过crontab将脚本调起来执行,手动执行的时候没有问题的,但是通过crontab进行调度就执行报错。 报错的原因如下: 看到这个报错第一个想到的应该就是编码的问题,有人说在Python脚本的前面加上 # coding:utf-8 但是那,加上之后还是报这个 阅读全文

posted @ 2019-07-26 14:10 gxg123 阅读(1781) 评论(0) 推荐(0)

关于redshift数据库当中的STL_LOAD_ERRORS问题的解决
摘要:今天写了Python脚本准备将s3上面的数据迁移到redshift上面去,突然发现在数据load的时候出现了STL_LOAD_ERRORS,刚接触到redshift也没有报错根本不知道怎么解决。 这里显示报错了,具体的日志要去STL_LOAD_ERRORS当中查看,这个其实是一张表。在这个表当中有报 阅读全文

posted @ 2019-07-16 20:42 gxg123 阅读(984) 评论(0) 推荐(0)

关于对key-value的数据行转化为列的sql操作
摘要:insert into table ${db_name}.uv_month_20190529 select k_v['${date}'] as date_id, k_v['0'] as 0h, k_v['1'] as 1h , k_v['2'] as 2h, k_v['3'] as 3h, k_v['4'] as 4h, k_v['5'] as 5h, k_v['6'] as 6h, k... 阅读全文

posted @ 2019-06-17 10:45 gxg123 阅读(698) 评论(0) 推荐(0)

关于mongodb当中的数据导入到mysql数据。
摘要:昨天有人问题mongodb的数据怎么导入到mysql关系型数据库,当时真不知道。今天查询了资料,然后自己实践了一下。在这里记录一下: 这里用到MongoDB的mongoexport,这个功能是将mongodb的数据导成csv文件,然后再讲csv文件当中的数据加载到mysql数据库,实现将mongdb 阅读全文

posted @ 2019-03-20 17:29 gxg123 阅读(1989) 评论(0) 推荐(0)

关于hive当中的窗口分析函数总结
摘要:最近在看关于窗口分析函数的一些东西,在这里总结一下: 好像从上面我们看不出丝毫的变化,好像只是对对应的字段做了一个排序操作。好像和 FIRST_VALUE()函数有点不一样 如果我们要达到那种效果,我们需要做的操作如下: SELECT id,money,FIRST_VALUE( money ) OV 阅读全文

posted @ 2019-03-18 17:41 gxg123 阅读(417) 评论(0) 推荐(0)

关于hive当中表的存储和压缩方式总结
摘要:这几天研究hive表的存储方式和压缩模式。在这里做一个简单的总结 hive表的存储 样例 : 我的表:rp_person_house_loan_info 数据总量:1933776 textfile: (1)hive数据表的默认格式,存储方式:行存储 。 (2) 可使用Gzip,Bzip2等压缩算法压 阅读全文

posted @ 2019-03-13 11:42 gxg123 阅读(7867) 评论(1) 推荐(0)

关于scala当中的闭包
摘要:最近遇到别人问我关于scala的闭包,之前只知道js当中的闭包,但是scala听的不是很多,于是就个人的一点心得记录一下: 所谓的闭包就是 闭包就是一个函数,返回值依赖于声明在函数外部的一个或者多个变量; 在这里定义了一个函数sum,做累加和但是定义的变量y,这里报错。 所以这里需要定义一个全局的y 阅读全文

posted @ 2019-03-01 17:27 gxg123 阅读(310) 评论(0) 推荐(0)

给es安装head插件和遇到的问题的总结
摘要:上一篇已经安装好了es,但是没有图形化的界面是看不出来集群的效果的,所以需要安装head插件展示索引的副本等信息。安装的步骤如下: 注意所有的文件都在root用户下安装,node和head插件都解压在es的安装目录当中。 从这里下载我们想要的node版本。然后进行安装: 解压文件 tar -zxvf 阅读全文

posted @ 2019-02-18 18:34 gxg123 阅读(885) 评论(0) 推荐(0)

关于elasticsearch安装相关总结和head插件安装的相关总结
摘要:最近在研究elasticsearch(es)后面简称es。关于es的安装如下 (1)去官网下载你所要安装的es的安装包 下载地址如下: https://www.elastic.co/downloads/past-releases 下载好包之后然后上传,或者采用wget的方式在线安装。 然后解压文件 阅读全文

posted @ 2019-02-18 17:31 gxg123 阅读(206) 评论(0) 推荐(0)

关于二分查找和二叉树查找的比较和选择
摘要:下面是一道题目: 在一个排序了的整数数组中(包含100万整数),寻找某一个特定的数。二分搜索、先构建二叉树再利用这棵树作为索引进行搜索,这两种搜索的时间复杂度都是logN。 什么时候该用第一种,什么时候该用第二种? 看到这道题目考察的是二分查找和二叉树查找的比较和优劣选择的关系。 (1)这里数组是一 阅读全文

posted @ 2019-02-13 10:03 gxg123 阅读(1694) 评论(0) 推荐(0)

关于hive当中的double的数据类型
摘要:最近发现通过sqoop将oracle数据库当中的数据到如到hive当中,发现oracle数据库当中number类型的数据变成了hive当中的double类型。不只是变成了double类型,数据好像稍微有点变化。 比如原来的:3769.14 变成了 3769.1399999999999 ,还有就是17 阅读全文

posted @ 2019-02-12 16:06 gxg123 阅读(14543) 评论(0) 推荐(0)

关于streamsets的相关问题总结
摘要:最近发现了一个很好用的工具streamsets工具。我将oracle数据库当中的数据增量的导入到hive当中。导入是按照唯一的主键ID将数据导入进来。 出现的问题如下: (1)数据精度的问题: 因为表是提前创建好的,我将id字段定义为int类型,但是在oracle数据库当中的数据类型是number类 阅读全文

posted @ 2019-01-31 15:41 gxg123 阅读(3836) 评论(0) 推荐(0)

将CDH集群JAVA升级至JDK8(CM-5.14.0)
摘要:最近在CM集群上集成组件,但是发现好多组件都不支持JDK1.7.要使用1.8的jdk才可以的比如spark2.2。还有Streamsets等组件。特别是比较新的组件都有这个问题出现 所以升级jdk是必须的事情了。具体的操作步骤详见下面这个链接: http://vlambda.com/wz_yLrxM 阅读全文

posted @ 2019-01-28 15:30 gxg123 阅读(380) 评论(0) 推荐(0)

导航