随笔分类 -  大数据组件

大数据相关组件遇到的问题和相关总结
关于在sqoop 导出数据到mysql数据库的过程对于空字符的处理。
摘要:今天在做sqoop的导入和导出的操作。在导出数据到mysql数据库的时候一直有问题,在导入空字段的时候就出现下面这个错误。 WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException at java.lang.Object 阅读全文

posted @ 2018-09-05 17:32 gxg123 阅读(3817) 评论(0) 推荐(1)

关于sqoop的导入和导出的加载数据库驱动的报错总结(oracle)
摘要:今天在使用sqoop 导入oracle数据库当中的数据,但是驱动一直加载不好。具体的错误如下: 看到这个错误的第一反应肯定是这个在加载的oracle驱动的时候,这个包有问题。然后就找各种oracle的驱动包。最后找到一个oracle6的包将其放在sqoop的安装目录下面的lib目录下面。 然后给其赋 阅读全文

posted @ 2018-09-05 17:18 gxg123 阅读(629) 评论(0) 推荐(0)

CDH5.14.0 安装失败,无法接受agent发出的检测信号
摘要:安装cdh5到最后报如下错误: 安装失败,无法接受agent发出的检测信号。 确保主机名称正确 确保端口7182可在cloudera manager server上访问(检查防火墙规则) 确保正在添加的主机的端口9000和9001空闲 检查在添加的主机上/var/log/cloudera-scm-a 阅读全文

posted @ 2018-09-04 11:58 gxg123 阅读(5069) 评论(0) 推荐(0)

CDH5.14.0 检查所有主机报“Inspector did not run sucessfully”错误
摘要:在安装CDH5.14.0的时候,在检查主机的时候,出现了Inspector did not run sucessfully。然后不知道怎么解决,但是CM有很好的错误提示功能。下面是检查的结果: 下面会列出,你安装的机器上的相关服务。自己对比一下看哪些地方是有差异的。 出现这个问题一般都是因为在文件同 阅读全文

posted @ 2018-09-04 11:50 gxg123 阅读(1026) 评论(0) 推荐(0)

CM+CDH安装大数据组件过程当中,一直报日志的创建权限的问题。
摘要:最近通过CM的形式安装大数据组件,然后出现了各种问题。 看到上面的截图,第一感觉是不是哪里没有设置好,或者是什么情况,然后查看打印出来的日志。日志的截图如下: 这个感觉就是日志目录创建不了,肯定是哪里权限不足导致的,但是当创建好之后,赋予权限的时候还是不可以,然后重新装了好多次,还是一直报这个错。最 阅读全文

posted @ 2018-09-04 11:43 gxg123 阅读(275) 评论(0) 推荐(0)

CM+CDH安装大数据的过程中出现主机运行状态不良情况的解决
摘要:最近在做CM和CDH的安装遇到了在安装的过程当中出现了主机运行状态不良的情况,截图如下: 出现这个首先想到的是这台机器的启动的过程当中考虑除了问题(因为我装了好多次,考虑集群环境被污染了) 然后在网上找到说删除一个文件即可,删除的问题文件如下: 阅读全文

posted @ 2018-09-04 11:30 gxg123 阅读(757) 评论(0) 推荐(0)

关于oracle当中数据类型转换的问题
摘要:今天在做项目的过程当中发现,我们在使用mybatis从数据库中拿数据。但是死活不能转化成我们想要的形式。 然后在网上查了相关的资料; 基本的转化如下: 这里使用的是将数据转换成number类型,然后保留两位小数的形式。 这里是将数据转换成为decimal类型,然后保留两位小数的形式。 这里是将数据转 阅读全文

posted @ 2018-08-23 20:51 gxg123 阅读(3886) 评论(0) 推荐(0)

关于sql当中的group by 和partition by 的区别。
摘要:今天在做一个实验的时候碰到了关于group by 和partition by 的区别,简单的总结一下。 实验的题目是,按照类型进行分组,然后对其金额进行累加。然后输出类型对应的金额总和: 这个输出的结果是按照不同的交易类型,然后对金额进行累加。 这个是用 PARTITION BY进行分组,然后统计。 阅读全文

posted @ 2018-08-23 17:58 gxg123 阅读(1695) 评论(0) 推荐(0)

在sql当中为了让数据做缓存做with as的操作
摘要:今天看别人的代码,突然发现之前理解的sql的with as的用法有新的理解。 之前理解的with as只是想着做单表的union all 操作时才使用,今天发现在可以使用逗号做分割,做缓存不同的表数据。 下面的例子如下: 在这里做了三个缓存的表,然后就对三个缓存表中的数据全部查询出来。查询的结果如下 阅读全文

posted @ 2018-08-22 17:54 gxg123 阅读(588) 评论(0) 推荐(0)

关于hive当中获取时间的操作。
摘要:今天突然在网上看到别人的面试题,觉得有点好奇想做一下,突然发现sql server的语法对于hive是不适用的。于是各种查资料。 然后发现hive中没有直接获取到当前时间的函数,而且对于时间定义的函数特别少,问题解决起来还是有难度。 下面介绍hive获取时间的方式: 题目:给定一张表(列有月份,销售 阅读全文

posted @ 2018-08-19 16:41 gxg123 阅读(24812) 评论(0) 推荐(0)

hive的sql的执行计划。
摘要:最近碰到有人问我,一个hql当中,如果有一个join,然后 有一个group by 操作。这个时候的map有多少个; 其实之前也看执行计划。今天有空就研究了一下,一看这里面的学问还真的不少。下面就以一个例子来说明: STAGE DEPENDENCIES: Stage-5 is a root stag 阅读全文

posted @ 2018-08-12 15:19 gxg123 阅读(1649) 评论(0) 推荐(0)

hive的中的sql的执行顺序。
摘要:今天在测试在写hive sql的时候注意到在进行查询的时候我们把order by放在后面,前面如果没有这个字段,则执行报错。 他就会报下面的错误。其实这个时候我们就想着是不是哪里写错了。但是仔细一看。好像并没有错误。 这个时候我们就可能会想是不是因为在hive当中语句的执行顺序有问题。于是我在前面s 阅读全文

posted @ 2018-08-06 18:11 gxg123 阅读(10315) 评论(0) 推荐(0)

关于hive中的reduce个数的设置。
摘要:我们都知道在进行hive的查询的时候,设置合理的reduce个数能够使计算的速度加快。 具体的提高速度的方法有下面这些: (1) hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducer 阅读全文

posted @ 2018-08-06 17:33 gxg123 阅读(14563) 评论(0) 推荐(1)

打印hive中的相关信息的存储位置。并且显示出来结果是来自哪个文件当中。
摘要:今天在看hive的时候,注意到我们在查数据的时候,我们可能并不知道这个字段是来自哪个文件。 因为文件都是存在HDFS上面的,hive的表只是对HDFS上文件中的数据做一个映射,真的数据是存在在HDFS上面的。 所以hive在设置的时候,设置了三个虚拟列,他会告诉你你这个值是来自于哪一张表当中,告诉你 阅读全文

posted @ 2018-08-04 11:04 gxg123 阅读(1610) 评论(0) 推荐(0)

关于sql当中的isnull和ifnull的区别
摘要:今天写sql突然看到了遇到两列值相加的情况,但是在一列值当中有为空的情况,然后两列值相加就变成了空值。 情况如下: 这里一直说参数有问题,于是我们各种的改,还是没有效果。 然后就试着找答案,然后发现了除了 这个之外,mysql还有一种判断不为空的情况IFNULL。他才是正真的判断如果不为空的情况下将 阅读全文

posted @ 2018-08-02 14:41 gxg123 阅读(848) 评论(0) 推荐(0)

在大数据管理平台HDP的ambria的时候遇到python的安全认证的问题
摘要:前段时间公司搭建hdp的大数据管理平台。今天又有人遇到了。今天在这里记录一下。在安装的过程当中遇到的问题如下: ERROR 2018-02-27 16:29:23,891 NetUtil.py:93 - [SSL: CERTIFICATE_VERIFY_FAILED] certificate ver 阅读全文

posted @ 2018-07-26 14:30 gxg123 阅读(1842) 评论(0) 推荐(0)

使用spark-shell从本地读取文件不成功的的操作。
摘要:今天打开spark-shell 想试试好久不用的命令,想从本地读取数据,然后做一个简单的wordcount。但是就是读取不成功。代码如下: 在做累加的时候就报错了,这里显示要从HDFS上面去读取文件, 但是我想从本地读取文件进行计算。于是找资料,将输入的文件的加上前缀,则计算成功。 val file 阅读全文

posted @ 2018-06-25 16:36 gxg123 阅读(3758) 评论(0) 推荐(0)

关于spark当中生成的RDD分区的设置情况。
摘要:问题描述:我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集,这也就是partition的由来。 而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。 首先来看一下官网创建的RDD的描述: 从这段描述当中我们可以看到。 阅读全文

posted @ 2018-04-17 14:32 gxg123 阅读(472) 评论(0) 推荐(0)

关于spark当中的reducebykey 和groupbykey两者的区别
摘要:reducebykey:它的特点是当使用它的时候,这个时候在不同的partition 中的数据会进行简单的combiner。然后再在reduce端进行数据的累加。 groupbykey:当采用它的时候。这个时候他不是对不同的partition中的数据进行combiner。而是直接在最后进行数据的累加 阅读全文

posted @ 2018-04-17 11:15 gxg123 阅读(470) 评论(0) 推荐(0)

关于scala的简单理解,对象,属性
摘要:对于scala 的理解。首先从代码方面来理解,首先看下面的代码: scala: shanghai is a good placemale 然后通过反编译工具对这段代码进行反编译生成的java代码如下: import scala.Predef.;import scala.reflect.ScalaSi 阅读全文

posted @ 2018-04-13 13:30 gxg123 阅读(320) 评论(0) 推荐(0)

导航