04 2018 档案

摘要:一.Join原则 将条目少的表/子查询放在Join的左边。原因:在Join的reduce阶段,位于Join左边的表的内容会被加载进内存,条目少的表放在左边,可以减少发生内存溢出的几率。 小表关联大表:用MapJoin把小表全部加载到内存在map端Join,避免reducer处理。如: select 阅读全文
posted @ 2018-04-07 17:01 梦里南柯 阅读(374) 评论(0) 推荐(0)
摘要:数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的re 阅读全文
posted @ 2018-04-07 16:22 梦里南柯 阅读(2747) 评论(0) 推荐(1)
摘要:负载信息:RegionServer:3个 Region:5400多个 现象:在使用Spark对HBase进行scan操作时发现有些task执行比较慢 原因分析:查看Spark应用的executor日志,发现查询慢的都是027节点请求的。 获取此节点的regionServer日志,发现scan的时候有 阅读全文
posted @ 2018-04-06 15:51 梦里南柯 阅读(2570) 评论(0) 推荐(0)
摘要:原因分析: 导入数据——>HBase,在客户端会发生非常多的rpc请求到regionServer,从而加大regionServer上的压力,如果regionServer比较忙碌(handle被占满),可能会抛异常。 解决: 1.调整客户端的rpc超时时间; 2.增加regionServer的hadl 阅读全文
posted @ 2018-04-06 15:20 梦里南柯 阅读(543) 评论(0) 推荐(0)
摘要:现象: 1.在HBase Shell里执行建表操作会等很久,最终失败; 2.通过代码侧进行建表同样不能成功。 原因排查: 1.查询HMaster日志,发现有接收到建表(create)的RPC请求; 在zookeeper的/hbase/table和/hbase/table-lock路径下也都能看到此t 阅读全文
posted @ 2018-04-06 15:15 梦里南柯 阅读(544) 评论(0) 推荐(0)
摘要:一.run()方法和start()方法的区别 在java中可有两种方式实现多线程,一种是继承Thread类,一种是实现Runnable接口;Thread类是在java.lang包中定义的。一个类只要继承了Thread类同时覆写了本类中的run()方法就可以实现多线程操作了,但是一个类只能继承一个父类 阅读全文
posted @ 2018-04-06 11:44 梦里南柯 阅读(500) 评论(0) 推荐(0)
摘要:清理ambari安装的hadoop集群 本文针对redhat或者centos 对于测试集群,如果通过ambari安装hadoop集群后,想重新再来一次的话,需要清理集群。 对于安装了很多hadoop组件的话,这个工作很繁琐。接下来是我整理的清理过程。 1,通过ambari将集群中的所用组件都关闭,如 阅读全文
posted @ 2018-04-04 23:28 梦里南柯 阅读(4965) 评论(0) 推荐(0)
摘要:Ambari server 搭建过程中到了revicw环境遇到点击deploy:发现页面没有响应 Console显示server 返回500 error错误,页面中没有提示更多的报错信息。 经过日志查看,发现日志中报了如下错误: 12 Mar 2018 21:25:41,903 ERROR [ale 阅读全文
posted @ 2018-04-04 23:26 梦里南柯 阅读(688) 评论(0) 推荐(0)
摘要:配置Ambari远程maridb 报错: ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'ambari' 在环境搭建的过程中,在 #用Ambari用户(上面设置的用户)登录mysql ,(没有密码) mys 阅读全文
posted @ 2018-04-04 23:20 梦里南柯 阅读(618) 评论(0) 推荐(0)
摘要:解决方案: 问题描述: 使用CDH 5.2版本安装时,agent节点有12个。按照安装说明,在各个节点启动cm-agent之后,发现只有6个节点能被纳管。其它的节点总是无法加入纳管中。 在确认防火墙已经关闭后,仍然无法解决问题 问题分析: 1. 查看已经加入纳管的节点,发现这6个节点并不是固定的,有 阅读全文
posted @ 2018-04-04 23:17 梦里南柯 阅读(682) 评论(0) 推荐(0)
摘要:1> 删除Agent节点的UUID # rm -rf /opt/cm-5.12.0/lib/cloudera-scm-agent/* 2> 清空主节点CM数据库 进入主节点的Mysql数据库,然后drop database cm; 3> 删除Agent节点namenode和datanode节点信息 阅读全文
posted @ 2018-04-04 23:15 梦里南柯 阅读(4389) 评论(0) 推荐(0)
摘要:java.io.IOException: the path component: '/var' is world-writable. Its permissions are 0666. Please fix this or select a different socket path 解决方案: c 阅读全文
posted @ 2018-04-04 23:13 梦里南柯 阅读(343) 评论(0) 推荐(0)
摘要:Kylin安装 [hadoop@hadoop3 cdh5.12.0]$ sudo tar -zxvf apache-kylin-2.0.0-bin-cdh57.tar.gz -C /opt/ [hadoop@hadoop3 opt]$ sudo chown -R hdfs:hdfs /opt/apa 阅读全文
posted @ 2018-04-04 17:24 梦里南柯 阅读(428) 评论(0) 推荐(0)
摘要:卸载和删除都使用过了,没有起到效果,然后用了如下的方案,进行解决: CentOS 从 Yum 源安装配置 Mariadb 2017.03.01 WangYan 学习笔记 热度 7℃ 一、安装 MariaDB 1.添加 MariaDB Yum 源 cat >/etc/yum.repos.d/Maria 阅读全文
posted @ 2018-04-04 17:12 梦里南柯 阅读(2306) 评论(0) 推荐(0)
摘要:背景:我们使用的方式不是wget 去下载ambari的源码包,而是在windows 的 firefox 下直接下载,将文件存储到本地。 执行 tar -zxvf HDP-2.6.3.0-centos7-rpm.tar.gz 后 报错信息:tar 解压失败tar: Skipping to next h 阅读全文
posted @ 2018-04-04 17:09 梦里南柯 阅读(238) 评论(0) 推荐(0)
摘要:1.安装环境说明 三台机器安装好CentOS-7-x86_64-Minimal-1708.iso 下载地址:https://www.centos.org/download/ 最好在安装时设置好IP和HOSTNAME 三台机器的IP和HOSTNAME下载如下 主 192.168.31.11 SY-00 阅读全文
posted @ 2018-04-03 20:51 梦里南柯 阅读(2281) 评论(0) 推荐(0)
摘要:Elasticsearch Jar包准备 所有节点导入elasticsearch-hadoop-5.5.1.jar /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hive/lib/elasticsearch-hadoop-5.5.1.j 阅读全文
posted @ 2018-04-03 20:29 梦里南柯 阅读(8230) 评论(0) 推荐(0)
摘要:ELK介绍 ELK是三个开源软件的缩写,即elasticsearch、logstack、kibana。 Elasticsearch:开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等 阅读全文
posted @ 2018-04-03 20:21 梦里南柯 阅读(506) 评论(0) 推荐(0)
摘要:三、集成:数据源 1、Apache Kafka:一种高吞吐量的分布式发布订阅消息系统 (1) (*)消息的类型 (*)常见的消息系统 Kafka、Redis > 只支持Topic JMS(Java Messaging Service标准):Topic、Queue > Weblogic (*)角色:生 阅读全文
posted @ 2018-04-03 16:12 梦里南柯 阅读(266) 评论(0) 推荐(0)
摘要:Spark Streaming: Spark用于处理流式数据的模块,类似Storm 核心:DStream(离散流),就是一个RDD 一、Spark Streaming基础 1、什么是Spark Streaming? (*)Spark Streaming makes it easy to build 阅读全文
posted @ 2018-04-03 15:08 梦里南柯 阅读(369) 评论(0) 推荐(0)
摘要:Spark SQL:类似Hive 一、Spark SQL基础 1、什么是Spark SQL? (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层:依赖RDD,把S 阅读全文
posted @ 2018-04-03 11:29 梦里南柯 阅读(410) 评论(0) 推荐(0)