大数据组件 - 随笔分类(第2页) - gxg123

通过Python读取sqlserver数据写成json文件的总结

摘要：最近在做将sqlserver的数据迁移到redshift上面，然后再做的过程当中出现了很多问题。（通过sqlserver 读取数据，然后写成json文件然后长传到S3上面，然后通过S3copy的形式将数据写入到redshift上面）第一次通过csv的形式然后通过s3copy的形式将数据长传，里面出阅读全文

posted @ 2019-11-12 20:19 gxg123 阅读(1316) 评论(0) 推荐(0)

关于在mysql数据库当中，批量查询一堆表的表名称和对应的行数的时候，批量查询的和单独查询出来的数据有差异

摘要：今天别人给我一堆表，然后我想批量的查询出这些表的行数，我觉得这个很容易啊，mysql有一个专门存各个表对应的详细的内容：查询语句如下：但是那，这样查询出来的数据让我吃惊的是，数据非常的不准确，连基本的参考价值都没有最后在网上查询了一点资料说，是因为引擎不同导致的， ENGINE=InnoDB（阅读全文

posted @ 2019-08-16 16:33 gxg123 阅读(972) 评论(0) 推荐(0)

通过Python读取csv文件报错的File "D:\Python\lib\codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in

摘要：今天在做将csv文件当中的数据插入到数据库当中，但是在读取csv文件的内容的时候报错了，一眼看过去好像是因为编码的原因，就在Python文件的上面加上编码的相关配置，但是还是报错首先想到的肯定是中文的原因，然后再读取的时候就在读取文件的时候加上编码如下：但是问题依然没有解决。看来还是数据源的编码阅读全文

posted @ 2019-08-13 19:29 gxg123 阅读(7106) 评论(0) 推荐(0)

gxg123

随笔分类 - 大数据组件

通过Python读取sqlserver数据写成json文件的总结

关于在mysql数据库当中，批量查询一堆表的表名称和对应的行数的时候，批量查询的和单独查询出来的数据有差异

通过Python读取csv文件报错的File "D:\Python\lib\codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode byte 0x90 in

关于redshift数据库和mysql数据库当中的concat函数的使用语法总结

关于在kettle当中使用循环去读取数据做etl操作。

关于aws当中的redshift自定义函数的部署和创建（UDF）

关于Python当中时间戳和服务器上面的时间戳的处理

关于Python脚本通过crontab调度的时候报错UnicodeEncodeError: ‘ascii’ codec can’t encode characters in positi的解决方案

关于redshift数据库当中的STL_LOAD_ERRORS问题的解决

关于对key-value的数据行转化为列的sql操作

关于mongodb当中的数据导入到mysql数据。

关于hive当中的窗口分析函数总结

关于hive当中表的存储和压缩方式总结

关于scala当中的闭包

给es安装head插件和遇到的问题的总结

关于elasticsearch安装相关总结和head插件安装的相关总结

关于二分查找和二叉树查找的比较和选择

关于hive当中的double的数据类型

关于streamsets的相关问题总结

将CDH集群JAVA升级至JDK8（CM-5.14.0）

导航

公告