随笔分类 -  大数据组件

大数据相关组件遇到的问题和相关总结
关于利用sqoop导入数据到hive当中的的空值的处理方式
摘要:最近在做sqoop的增量导入操作,但是当我们在导入数据的时候出现合并失败的现象。出现的错误如下: 这个问题最终的解决方式是修改hive的null值存储,不适用默认的 \n 对数据进行存储,这样就解决了这个问题。所以看到后面的报错不一定就是时间的问题,要从原理上进行分析总结找问题。 阅读全文

posted @ 2019-01-24 11:02 gxg123 阅读(1498) 评论(0) 推荐(0)

关于mysql的binlog恢复数据库数据的相关总结
摘要:今天有人问我他们的数据库当中的表清空了怎么办,想到的方法就是使用binlog来恢复删除的数据。 关于binlog他是一个二进制的文件,要恢复需要通过转换成正常的sql脚本然后执行数据的恢复,或者采用管道流的方式执行(实际还是转换成脚本的形式执行) (1)要读取binlog文件必须首先开启binlog 阅读全文

posted @ 2019-01-16 18:09 gxg123 阅读(571) 评论(0) 推荐(0)

关于sqoop增量导入过程中,文件合并遇到的问题。
摘要:今天在多sqoop的增量导入操作,遇到下面这个问题(报错如下): 这里有一个逗号,当好我的默认分割符号是逗号,也就是在检查完这一行数据是更新的数据,然后按照一个一个字段进行匹配的时候,突然将时间赋值给这个字符串的时候就出现问题了 所以才会报 Caused by: java.lang.IllegalA 阅读全文

posted @ 2019-01-12 15:49 gxg123 阅读(1454) 评论(0) 推荐(0)

关于查看HDFS上的文件,文件目录,文件是否为空的命令总结
摘要:今天做sqoop的增量导入操作,但是在第一次执行的时候,数据是全量的,后面数据就是按照增量的方式对数据进行导入操作。不想手动的去操作shell命令,就对 是否是全量导入还是变量导入做了一个判断操作但是使用下面的shell命令好像不管用 -test -[defsz] <path> : Answer v 阅读全文

posted @ 2019-01-09 16:58 gxg123 阅读(8529) 评论(0) 推荐(0)

关于sqoop增量导入oracle的数据到HDFS的出现的错误总结
摘要:今天在将公司的oracle的数据抽取到hive当中,根据时间字段做增量插入,然后合并采用按照id唯一主键的方式进行合并操作。 ERROR tool.ImportTool: Import failed: java.io.IOException: Could not load jar /tmp/sqoo 阅读全文

posted @ 2019-01-09 10:49 gxg123 阅读(2418) 评论(0) 推荐(0)

关于oozie在发邮件的报错Caused by: javax.mail.AuthenticationFailedException
摘要:今天在做在hue当中,实现oozie的调度然后发送邮件到邮箱的操作报错信息如下: org.apache.oozie.action.ActionExecutorException: EM007: Encountered an error while sending the email message  阅读全文

posted @ 2019-01-07 16:21 gxg123 阅读(741) 评论(0) 推荐(0)

关于在hue当中调shell脚本的操作(这里的shell 脚本是在shell脚本当中嵌套shell脚本的操作使用source的方式)
摘要:这两天在做数据的导入操作,为了方便数据的导入我们采用sqoop的方式将数据导入。但是在表很多的情况下,在hue当中部署工作流就是一件很麻烦的事情, 然后想着能不能通过shell脚本调shell脚本的方式实现在一个shell脚本当中就可以实现对多个导入操作脚本的调用。 操作脚本如下: 下面说一下这种脚 阅读全文

posted @ 2019-01-04 17:41 gxg123 阅读(3209) 评论(0) 推荐(0)

关于kettle连接cdh集群hive的相关报错。
摘要:今天在使用kettle连接hive的时候出现了下面的报错 Error connecting to database: (using class org.apache.hive.jdbc.HiveDriver) Illegal Hadoop Version: Unknown (expected A.B 阅读全文

posted @ 2019-01-04 16:46 gxg123 阅读(3491) 评论(0) 推荐(0)

安装kettle遇到的一些问题。 a java exception has occurred;
摘要:今天在安装kettle的时候出现了几个问题,在这里记录一下: kettle的安装: (1)去官网下载http://kettle.pentaho.org 对于kettle来说的话,解压即安装。下载解压zip包就可以。安装kettle需要配置jdk.对于jdk的配置这里不做赘述. 然后在windows环 阅读全文

posted @ 2019-01-04 16:16 gxg123 阅读(1102) 评论(0) 推荐(0)

在cm集群当中对yarn资源的管理的设置(Yarn 动态资源池配置)
摘要:最近在做yarn的资源隔离,就是在yarn的控制界面实现对yarn的资源的划分。这个一般是对资源的动态分配。 这里是相关的权限可以设置核心数等信息。 计划策略这一栏就是使用默认的设置。其他的设置可以先不管。接下来我们在来看我们真个资源调度的执行顺序: 这里设置成功之后,我们在提交代码的时候将代码指定 阅读全文

posted @ 2018-12-29 18:12 gxg123 阅读(2288) 评论(0) 推荐(0)

在CM集群中安装集成kafka的注意事项
摘要:今天在CM安装的CDH的大数据管理平台上集成kafak,遇到的一些坑,记录下来: 我安装的CM是5.14.0.在这个版本当中他没有被纳入到CDH的安装平台,所以他需要安装激活等操作,和我们手动集成spark2的操作是一样的。 (1)第一步下载parcels (2) 然后在我们的集群当中就出现了kaf 阅读全文

posted @ 2018-12-29 16:24 gxg123 阅读(517) 评论(0) 推荐(0)

关于在本地idea当中提交spark代码到远程的错误总结(第三篇)
摘要:因为我们是在idea当中对hive的数据通过spark sql的形式进行处理的嘛,所以需要加载hive的表以及hive的数据,但是在加载的时候报错;报错信息如下; 看到这里第一反应就是hive的相关包的没有加载了,于是我将他配置在yarn-site.xml的yarn.application.clas 阅读全文

posted @ 2018-12-26 15:02 gxg123 阅读(1626) 评论(0) 推荐(0)

关于在本地idea当中提交spark代码到远程的错误总结(第二篇)
摘要:当代码能正常提交到spark集群运行的时候,出现下面的错误: 这个种种的迹象都显示是程序的内存溢出造成的,那为什么会内存溢出那,原因是我们队结果集进行collect操作的时候,整的结果作为一个大的集群全部的聚集到了driver 端也就是我们的idea当中。这个时候我们的客户端如果内存不是够大的情况下 阅读全文

posted @ 2018-12-26 14:41 gxg123 阅读(1207) 评论(0) 推荐(0)

关于在本地idea当中提交spark代码到远程的错误总结(第一篇)
摘要:最近在做将spark的代码提交到远程当中遇到很多坑,各种各样的错误: 我是在window当中使用idea开发将本地的代码提交到远程的spark集群上,没有用到local的模式去做(在实际的生产当中不会用到local的方式去做,所以没考虑) 我是直接run的方式在idea当中提交代码的,这里采用的st 阅读全文

posted @ 2018-12-26 14:17 gxg123 阅读(1601) 评论(0) 推荐(0)

关于在linux操作系统中中不能删除创建创建的用户的操作
摘要:今天在做yarn的版本的权限控制的时候,我再Linux当中创建了用户和用户组。但是那当我去删除的时候就报用户正在登录,删除不了(报错信息如下) userdel: user bigdata is currently logged in (我这里创建的bigdata用户) 然后网上百度了一圈说使用如下的 阅读全文

posted @ 2018-12-18 09:53 gxg123 阅读(319) 评论(0) 推荐(0)

关于spark通过idea提交任务到集群的操作,本地机器和远程的spark集群的网络不同的操作。
摘要:今天在将本地idea当中的代码提交到远程的spark集群的时候,出现了下面的错误 看到这个错的第一反应就是集群本地和spark的通讯是不是正常的,因为我们通过本地提交任务的时候启动了spark_ui界面这个相当于在本地进行操作的,相当于spark的client。但是真正的执行者又是在集群当中。所以两 阅读全文

posted @ 2018-12-13 20:05 gxg123 阅读(1158) 评论(0) 推荐(0)

关于在maven当中引入CDH包不能引入的解决方案
摘要:最近在做spark远程操作CM安装的集群,创建的maven工程但是cdh的jar包就是下载不下来。怀疑是maven的原因,但是maven的版本换了好多,还是不行。(我们安装的CM集群是5.14.0) 还有一种办法是手动的加入到maven仓库当中。都是那么多表手动加累死。 最后在网上看大别人写的在po 阅读全文

posted @ 2018-12-13 19:31 gxg123 阅读(831) 评论(0) 推荐(0)

HDFS NFS Gateway 无法启动、挂载失败问题(CM集群安装HDFS)
摘要:今天在搭建集群的时候给HDFS添加角色的时候,出现了 NFS Gateway 一直启动失败,具体的错误如下: 具体的错误如下No portmap or rpcbind service is running on this host. Please start portmap or rpcbind s 阅读全文

posted @ 2018-12-04 10:33 gxg123 阅读(1086) 评论(0) 推荐(0)

在cm安装的大数据管理平台中集成impala之后读取hive表中的数据的设置(hue当中执行impala的数据查询)
摘要:今天装了CM集群,在集群当中集成了impala,hive。然后一直觉得认为impala自动共享hive的元数据,最后发现好像并不是这样的,需要经过一个同步元数据的操作才能实现数据的同步。 具体的做法如下: (1)安装好hive和impala,然后在hive当中创建目标数据库,创建一张表 2. 在Im 阅读全文

posted @ 2018-12-01 17:34 gxg123 阅读(2379) 评论(0) 推荐(0)

在hue里面集成spark2,使用oozie的调度
摘要:1.Oozie共享库添加Spark2 1.1查看当前Oozie的share-lib共享库HDFS目录 1.2.在Oozie的/user/oozie/share/lib/lib_20181112142531创建spark2目录 1.3.向spark2目录添加spark2的jars和oozie-shar 阅读全文

posted @ 2018-11-26 11:43 gxg123 阅读(1555) 评论(0) 推荐(0)

导航