随笔分类 -  大数据组件

大数据相关组件遇到的问题和相关总结
在CM管理的大数据平台上集成spark2
摘要:这几天在写一个spark的程序做数据的迁移工作,但是我看了一下cm管理的spark的版本是1.6.0的spark(我们集群安装的cm的版本是5.14.0的版本)于是就要将spark2集成到我们的大数据管理平台当中去。步骤如下: 通过这张图我们可以看到,在cm的管理平台上,有两种集成模式的spark。 阅读全文

posted @ 2018-11-13 13:36 gxg123 阅读(972) 评论(0) 推荐(0)

关于使用oozie做任务调度的问题。出现SQOOP from Oracle Connection reset error(从oracle导入数据到HDFS上面)
摘要:最近在做通过sqoop 将oracle数据库当中的数据导入的HDFS上面,但是当我串行的时候是没有一点问题的。但是为了达到集群当中资源的额最大的使用率。想让导入数据做成并行去处理。在做并行的时候,有时候是好的,有时候就出错,这样不稳定的系统真的头大。出现的问题如下: 看到上面的问题,第一反应应该是o 阅读全文

posted @ 2018-10-31 17:30 gxg123 阅读(551) 评论(0) 推荐(0)

关于hive当中取行号为1和oracle当中去行号为1的函数的总结
摘要:今天在做将oracle当中获取到排序后的第一行的数据执行的sql如下: 然后我们去hive里面进行改造: 阅读全文

posted @ 2018-10-24 19:50 gxg123 阅读(514) 评论(0) 推荐(0)

关于hive当中的map输入数据和reduce输出数据的合并。
摘要:最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件: 为啥要对小文件进行合并一句话总结为:文件数目过多,增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。 同时也是降低下一个程序处理这些小文件,启动和小文件一样数量的map 阅读全文

posted @ 2018-10-23 18:14 gxg123 阅读(1162) 评论(0) 推荐(0)

关于sqoop导入数据到hive数据库当中,表中数据为空倒入hive当中的处理
摘要:今天在hive数据库当中查询一张表,查询数据为空的值,但是死活就是匹配不到: 查询语句如下: 我直接插寻这个字段是有值的啊,也是为null,为啥就不可以啊。原来真正的问题的源头是从我们使用sqoop导入数据开始的。在sqoop导入数据的时候如果不对null做处理,他会将原来为null的值导入的时候 阅读全文

posted @ 2018-10-23 11:24 gxg123 阅读(781) 评论(0) 推荐(0)

关于在sqoop导入数据的时候,数据量变多的解决方案。
摘要:今天使用sqoop导入一张表,我去查数据库当中的数据量为650条数据,但是我将数据导入到hive表当中的时候出现了563条数据,这就很奇怪了,我以为是数据错了,然后多导入了几次数据发现还是一样的问题。 然后我去查数据字段ID的值然后发现建了主键的数据怎么可能为空的那。然后我去看数据库当中的数据发现, 阅读全文

posted @ 2018-09-30 17:45 gxg123 阅读(1185) 评论(0) 推荐(0)

关于mysql当中给数据量特别大的两个表做关联查询的时候解决查询速度很慢的解决方法
摘要:今天碰到了两个表做关联查询的mysql,这两个表的数据量都是特别大的,有一个表的数据是上亿条的数据,有一个是几百万的数据, 查询的速度是特别慢,然后我看了一下执行计划,下面是执行执行计划: 看到上面这个图这个数据量是特别大的,这个查询起来的肯定是非常慢的,而且他的类型都是ALL类型,也就是都是全表进 阅读全文

posted @ 2018-09-29 20:08 gxg123 阅读(23146) 评论(1) 推荐(3)

关于sqoop导入数据的时候添加--split-by配置项对sqoop的导入速度的影响。
摘要:最近在搞sqoop的导入导出操作。但是今天遇到一个表数据量特别大。我们想通过sqoop的导入功能对数据进行导入,但是从oracle当中导入数据的时候,如果是需要平行导入的话必须使用--split-by,也就是设置map的数量。 一种就是不指定--split-by(切分的字段)直接使用一个map的形式 阅读全文

posted @ 2018-09-28 20:28 gxg123 阅读(944) 评论(0) 推荐(0)

在hue当中设置hive当中数据库的控制权限。
摘要:这段时间在搞大数据的集群搭建工作,并且安装了hive的服务,但是没有对其中的数据库的操作权限做限制,每个人都可以对数据库进行增删改查。今天有空做了一下了对hive数据库当中的数据库做一些限制。 我们都是在hue的客户端进行操作hive当中的数据库。操作如下: (1)在hue界面创建登录用户: (2) 阅读全文

posted @ 2018-09-21 18:35 gxg123 阅读(7145) 评论(0) 推荐(0)

关于在hue当中执行定时任务,时间的设置。
摘要:在hue当中调用shell脚本,做任务的定时执行,设置任务的定时执行时间。想让任务每5分钟执行一次。但是找了半天也没找到怎么设置定时任务的额执行情况。 在整个的页面当中只有定义小时,天,周,年等相关的操作的。就是没有按照时间来进行执行的。 我们可以看到在这个界面的相关的额配置。就是选择有问题。然后点 阅读全文

posted @ 2018-09-20 18:30 gxg123 阅读(1228) 评论(0) 推荐(0)

关于在hue当中调shell脚本oozie出现017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919174749982-oozie-oozi-W@shell-9865]. Failing this action!
摘要:昨天下午集群在跑shell脚本的时候出现了,oozie出现了JA017: Could not lookup launched hadoop Job ID [job_1537350421540_0007] which was associated with action [0000003-180919 阅读全文

posted @ 2018-09-20 09:45 gxg123 阅读(647) 评论(0) 推荐(0)

关于在在hue当中执行shell脚本使用oozie调度,一直出现laucher异常退出。
摘要:这个地方多写了一个等于号,然后oozie在执行调度的时候他还会加载一次,然后又没有相对应得表,然后就执行报错了。真的是坑。虽然问题解决了,但是在整个的过程当中还是收获了很多东西。顺便也总结一下碰到这种问题的时候的自己的一点见解。 (1)注意如果是shell的话一定要注意空格的问题。 (2)在执行的过 阅读全文

posted @ 2018-09-19 18:46 gxg123 阅读(5703) 评论(0) 推荐(0)

安装CDH在初始化CM数据库的时候出现mysql数据库连接的问题的解决方案
摘要:我们知道cm的数据库默认使用的是postgresql数据库,但是我们想存储CM上的相关组件的元数据信息我必须吧他存储在mysql这样的关系型数据库当中,所以我们要初始化数据库使用的是下面的命令。 阅读全文

posted @ 2018-09-12 18:13 gxg123 阅读(2119) 评论(0) 推荐(0)

关于在hue当中使用oozie对sqoop 进行资源调度的出现的问题Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.FileNotFoundException: File does not exist: hdfs://VM200-11:8020/user/admin/.staging
摘要:今天在做hue的资源调度的操作,执行了好多次一直报下面的错误: 看到这个错误信息我们可以看到文件不存在,其实时间的原因并不是这样的,我们提交任务到集群上面。但是任务的运行不知道该在哪一台机器上执行找不到这个目录所以就报文件不存在了我们只需要在提交任务的时候给他加上环境变量就可以避免这个错误: 让他找 阅读全文

posted @ 2018-09-11 17:30 gxg123 阅读(870) 评论(0) 推荐(0)

关于在hue当中执行脚本一直刷heart beat 但是yarn上面的任务一直停着,假死的解决方案。
摘要:最近在做数据迁移的工作,但是那在使用hue建的工作流,提交任务之后两个任务,一个是oozie的常驻进程job laucher,还有一个就是真实的任务。action操作的任务。 执行的结果就是这样的,launcher操作一直停在95%,正真的action操作则一直停在5%这里。然后hue的日志一直在向 阅读全文

posted @ 2018-09-11 17:15 gxg123 阅读(2444) 评论(0) 推荐(0)

关于在hue当中执行shell脚本,报错Stdoutput Warning: /opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/bin/..b/sqoop/../accumulo does not exist! Accumulo imports will fail. Stdoutput Please set $ACCUMULO_HOME to t
摘要:今天在使用hue做工作流,执行shell脚本的时候出现出现下面这个问题 Stdoutput Warning: /opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/bin/..b/sqoop/../accumulo does not exist! Ac 阅读全文

posted @ 2018-09-11 15:35 gxg123 阅读(1045) 评论(0) 推荐(0)

关于sqoop导出数据到mysql关系型数据库当中报错的解决( java.io.IOException: com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Duplicate entry '65199357' for key 'PRIMARY')
摘要:最近在做将将hive当中的数据导出到mysql的关系型数据库当中,然后在mysql的关系型数据库当中建了主键,然后将数据导出到数据就报错,最后查看在hive导出数据到关系型数据库的过程当中如果有重复的字段值就会出现下面的问题: 阅读全文

posted @ 2018-09-10 10:40 gxg123 阅读(1821) 评论(0) 推荐(0)

关于sqoop导出数据到mysql导出一半的时候出错的解决方案(:Data truncation: Data too long for column 'BORROWERNAME' at row 88)
摘要:最近在做数据迁移的工作,使用到sqoop的导入和导出工具,具体操作是将hive当中的数据查询出来插入到新的表当中,然后将数据又导入到mysql的关系型数据库当中。 我将数据插入到hive将的一个新的表当中,但是那插入到一半的时候数据就插入不进去了,一直纳闷怎么可能插入一半就插不进去了那,说来也奇怪。 阅读全文

posted @ 2018-09-10 10:08 gxg123 阅读(4371) 评论(0) 推荐(0)

大数据调整集群当中的磁盘占用(HDFS)和存的数据的副本数的调整
摘要:最近刚搭建的Hadoop集群(CM),发现在通过sqoop导入数据使整个集群当中的磁盘都快占满了。这个时候考虑到需要对集群当中数据的副本数进行修改(由原来的3个副本修改为现在的1个副本) 然后我们在对之前到如到HDFS上面的文件进行重新设置副本数。命令如下: 然后我们使用CM对集群当中的资源进行平衡 阅读全文

posted @ 2018-09-07 18:42 gxg123 阅读(482) 评论(0) 推荐(0)

关于Linux不能ping通外网的解决方法
摘要:今天拿到公司的一台服务器就是ping不通百度(外网)。网上找了各种办法最后修改了如下文件的参数,问题解决: 将他修改为电信的外网即可。 阅读全文

posted @ 2018-09-06 19:04 gxg123 阅读(492) 评论(0) 推荐(0)

导航