大数据组件 - 随笔分类(第5页) - gxg123

关于在sqoop 导出数据到mysql数据库的过程对于空字符的处理。

摘要：今天在做sqoop的导入和导出的操作。在导出数据到mysql数据库的时候一直有问题，在导入空字段的时候就出现下面这个错误。 WARN hdfs.DFSClient: Caught exception java.lang.InterruptedException at java.lang.Object 阅读全文

posted @ 2018-09-05 17:32 gxg123 阅读(3817) 评论(0) 推荐(1)

关于sqoop的导入和导出的加载数据库驱动的报错总结（oracle）

摘要：今天在使用sqoop 导入oracle数据库当中的数据，但是驱动一直加载不好。具体的错误如下：看到这个错误的第一反应肯定是这个在加载的oracle驱动的时候，这个包有问题。然后就找各种oracle的驱动包。最后找到一个oracle6的包将其放在sqoop的安装目录下面的lib目录下面。然后给其赋阅读全文

posted @ 2018-09-05 17:18 gxg123 阅读(629) 评论(0) 推荐(0)

CDH5.14.0 安装失败，无法接受agent发出的检测信号

摘要：安装cdh5到最后报如下错误：安装失败，无法接受agent发出的检测信号。确保主机名称正确确保端口7182可在cloudera manager server上访问（检查防火墙规则）确保正在添加的主机的端口9000和9001空闲检查在添加的主机上/var/log/cloudera-scm-a 阅读全文

posted @ 2018-09-04 11:58 gxg123 阅读(5069) 评论(0) 推荐(0)

CDH5.14.0 检查所有主机报“Inspector did not run sucessfully”错误

摘要：在安装CDH5.14.0的时候，在检查主机的时候，出现了Inspector did not run sucessfully。然后不知道怎么解决，但是CM有很好的错误提示功能。下面是检查的结果：下面会列出，你安装的机器上的相关服务。自己对比一下看哪些地方是有差异的。出现这个问题一般都是因为在文件同阅读全文

posted @ 2018-09-04 11:50 gxg123 阅读(1026) 评论(0) 推荐(0)

CM+CDH安装大数据组件过程当中，一直报日志的创建权限的问题。

摘要：最近通过CM的形式安装大数据组件，然后出现了各种问题。看到上面的截图，第一感觉是不是哪里没有设置好，或者是什么情况，然后查看打印出来的日志。日志的截图如下：这个感觉就是日志目录创建不了，肯定是哪里权限不足导致的，但是当创建好之后，赋予权限的时候还是不可以，然后重新装了好多次，还是一直报这个错。最阅读全文

posted @ 2018-09-04 11:43 gxg123 阅读(275) 评论(0) 推荐(0)

CM+CDH安装大数据的过程中出现主机运行状态不良情况的解决

摘要：最近在做CM和CDH的安装遇到了在安装的过程当中出现了主机运行状态不良的情况，截图如下：出现这个首先想到的是这台机器的启动的过程当中考虑除了问题（因为我装了好多次，考虑集群环境被污染了）然后在网上找到说删除一个文件即可，删除的问题文件如下：阅读全文

posted @ 2018-09-04 11:30 gxg123 阅读(757) 评论(0) 推荐(0)

关于oracle当中数据类型转换的问题

摘要：今天在做项目的过程当中发现，我们在使用mybatis从数据库中拿数据。但是死活不能转化成我们想要的形式。然后在网上查了相关的资料；基本的转化如下：这里使用的是将数据转换成number类型，然后保留两位小数的形式。这里是将数据转换成为decimal类型，然后保留两位小数的形式。这里是将数据转阅读全文

posted @ 2018-08-23 20:51 gxg123 阅读(3886) 评论(0) 推荐(0)

关于sql当中的group by 和partition by 的区别。

摘要：今天在做一个实验的时候碰到了关于group by 和partition by 的区别，简单的总结一下。实验的题目是，按照类型进行分组，然后对其金额进行累加。然后输出类型对应的金额总和：这个输出的结果是按照不同的交易类型，然后对金额进行累加。这个是用 PARTITION BY进行分组，然后统计。阅读全文

posted @ 2018-08-23 17:58 gxg123 阅读(1695) 评论(0) 推荐(0)

在sql当中为了让数据做缓存做with as的操作

摘要：今天看别人的代码，突然发现之前理解的sql的with as的用法有新的理解。之前理解的with as只是想着做单表的union all 操作时才使用，今天发现在可以使用逗号做分割，做缓存不同的表数据。下面的例子如下：在这里做了三个缓存的表，然后就对三个缓存表中的数据全部查询出来。查询的结果如下阅读全文

posted @ 2018-08-22 17:54 gxg123 阅读(588) 评论(0) 推荐(0)

关于hive当中获取时间的操作。

摘要：今天突然在网上看到别人的面试题，觉得有点好奇想做一下，突然发现sql server的语法对于hive是不适用的。于是各种查资料。然后发现hive中没有直接获取到当前时间的函数，而且对于时间定义的函数特别少，问题解决起来还是有难度。下面介绍hive获取时间的方式：题目：给定一张表（列有月份，销售阅读全文

posted @ 2018-08-19 16:41 gxg123 阅读(24812) 评论(0) 推荐(0)

hive的sql的执行计划。

摘要：最近碰到有人问我，一个hql当中，如果有一个join，然后有一个group by 操作。这个时候的map有多少个；其实之前也看执行计划。今天有空就研究了一下，一看这里面的学问还真的不少。下面就以一个例子来说明： STAGE DEPENDENCIES: Stage-5 is a root stag 阅读全文

posted @ 2018-08-12 15:19 gxg123 阅读(1649) 评论(0) 推荐(0)

hive的中的sql的执行顺序。

摘要：今天在测试在写hive sql的时候注意到在进行查询的时候我们把order by放在后面，前面如果没有这个字段，则执行报错。他就会报下面的错误。其实这个时候我们就想着是不是哪里写错了。但是仔细一看。好像并没有错误。这个时候我们就可能会想是不是因为在hive当中语句的执行顺序有问题。于是我在前面s 阅读全文

posted @ 2018-08-06 18:11 gxg123 阅读(10315) 评论(0) 推荐(0)

关于hive中的reduce个数的设置。

摘要：我们都知道在进行hive的查询的时候，设置合理的reduce个数能够使计算的速度加快。具体的提高速度的方法有下面这些： (1) hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G） hive.exec.reducer 阅读全文

posted @ 2018-08-06 17:33 gxg123 阅读(14563) 评论(0) 推荐(1)

打印hive中的相关信息的存储位置。并且显示出来结果是来自哪个文件当中。

摘要：今天在看hive的时候，注意到我们在查数据的时候，我们可能并不知道这个字段是来自哪个文件。因为文件都是存在HDFS上面的，hive的表只是对HDFS上文件中的数据做一个映射，真的数据是存在在HDFS上面的。所以hive在设置的时候，设置了三个虚拟列，他会告诉你你这个值是来自于哪一张表当中，告诉你阅读全文

posted @ 2018-08-04 11:04 gxg123 阅读(1610) 评论(0) 推荐(0)

关于sql当中的isnull和ifnull的区别

摘要：今天写sql突然看到了遇到两列值相加的情况，但是在一列值当中有为空的情况，然后两列值相加就变成了空值。情况如下：这里一直说参数有问题，于是我们各种的改，还是没有效果。然后就试着找答案，然后发现了除了这个之外，mysql还有一种判断不为空的情况IFNULL。他才是正真的判断如果不为空的情况下将阅读全文

posted @ 2018-08-02 14:41 gxg123 阅读(848) 评论(0) 推荐(0)

在大数据管理平台HDP的ambria的时候遇到python的安全认证的问题

摘要：前段时间公司搭建hdp的大数据管理平台。今天又有人遇到了。今天在这里记录一下。在安装的过程当中遇到的问题如下： ERROR 2018-02-27 16:29:23,891 NetUtil.py:93 - [SSL: CERTIFICATE_VERIFY_FAILED] certificate ver 阅读全文

posted @ 2018-07-26 14:30 gxg123 阅读(1842) 评论(0) 推荐(0)

使用spark-shell从本地读取文件不成功的的操作。

摘要：今天打开spark-shell 想试试好久不用的命令，想从本地读取数据，然后做一个简单的wordcount。但是就是读取不成功。代码如下：在做累加的时候就报错了，这里显示要从HDFS上面去读取文件，但是我想从本地读取文件进行计算。于是找资料，将输入的文件的加上前缀，则计算成功。 val file 阅读全文

posted @ 2018-06-25 16:36 gxg123 阅读(3758) 评论(0) 推荐(0)

关于spark当中生成的RDD分区的设置情况。

摘要：问题描述：我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集，这也就是partition的由来。而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。首先来看一下官网创建的RDD的描述：从这段描述当中我们可以看到。阅读全文

posted @ 2018-04-17 14:32 gxg123 阅读(472) 评论(0) 推荐(0)

关于spark当中的reducebykey 和groupbykey两者的区别

摘要：reducebykey：它的特点是当使用它的时候，这个时候在不同的partition 中的数据会进行简单的combiner。然后再在reduce端进行数据的累加。 groupbykey：当采用它的时候。这个时候他不是对不同的partition中的数据进行combiner。而是直接在最后进行数据的累加阅读全文

posted @ 2018-04-17 11:15 gxg123 阅读(470) 评论(0) 推荐(0)

关于scala的简单理解，对象，属性

摘要：对于scala 的理解。首先从代码方面来理解，首先看下面的代码： scala: shanghai is a good placemale 然后通过反编译工具对这段代码进行反编译生成的java代码如下： import scala.Predef.;import scala.reflect.ScalaSi 阅读全文

posted @ 2018-04-13 13:30 gxg123 阅读(320) 评论(0) 推荐(0)

gxg123

随笔分类 - 大数据组件