2018 年 4月随笔档案 - 梦里南柯

Hive、Spark优化案例

摘要：一.Join原则将条目少的表/子查询放在Join的左边。原因：在Join的reduce阶段，位于Join左边的表的内容会被加载进内存，条目少的表放在左边，可以减少发生内存溢出的几率。小表关联大表：用MapJoin把小表全部加载到内存在map端Join，避免reducer处理。如： select 阅读全文

posted @ 2018-04-07 17:01 梦里南柯阅读(374) 评论(0) 推荐(0)

MapReduce数据倾斜的解决方式

摘要：数据倾斜：由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的re 阅读全文

posted @ 2018-04-07 16:22 梦里南柯阅读(2747) 评论(0) 推荐(1)

HBase调优案例（三）——Spark访问HBase慢

摘要：负载信息：RegionServer:3个 Region:5400多个现象：在使用Spark对HBase进行scan操作时发现有些task执行比较慢原因分析：查看Spark应用的executor日志，发现查询慢的都是027节点请求的。获取此节点的regionServer日志，发现scan的时候有阅读全文

posted @ 2018-04-06 15:51 梦里南柯阅读(2570) 评论(0) 推荐(0)

HBase调优案例（二）——高并发下bulkload出现超时

摘要：原因分析：导入数据——>HBase，在客户端会发生非常多的rpc请求到regionServer，从而加大regionServer上的压力，如果regionServer比较忙碌（handle被占满），可能会抛异常。解决： 1.调整客户端的rpc超时时间； 2.增加regionServer的hadl 阅读全文

posted @ 2018-04-06 15:20 梦里南柯阅读(543) 评论(0) 推荐(0)

HBase调优案例（一）——建表长时间等待最后失败

摘要：现象： 1.在HBase Shell里执行建表操作会等很久，最终失败； 2.通过代码侧进行建表同样不能成功。原因排查： 1.查询HMaster日志，发现有接收到建表（create）的RPC请求；在zookeeper的/hbase/table和/hbase/table-lock路径下也都能看到此t 阅读全文

posted @ 2018-04-06 15:15 梦里南柯阅读(544) 评论(0) 推荐(0)

多线程之Tread类和Runnable的区别

摘要：一.run()方法和start()方法的区别在java中可有两种方式实现多线程，一种是继承Thread类，一种是实现Runnable接口；Thread类是在java.lang包中定义的。一个类只要继承了Thread类同时覆写了本类中的run()方法就可以实现多线程操作了，但是一个类只能继承一个父类阅读全文

posted @ 2018-04-06 11:44 梦里南柯阅读(500) 评论(0) 推荐(0)

卸载Ambari集群

摘要：清理ambari安装的hadoop集群本文针对redhat或者centos 对于测试集群，如果通过ambari安装hadoop集群后，想重新再来一次的话，需要清理集群。对于安装了很多hadoop组件的话，这个工作很繁琐。接下来是我整理的清理过程。 1，通过ambari将集群中的所用组件都关闭，如阅读全文

posted @ 2018-04-04 23:28 梦里南柯阅读(4965) 评论(0) 推荐(0)

Ambari显示server 返回500 error

摘要：Ambari server 搭建过程中到了revicw环境遇到点击deploy：发现页面没有响应 Console显示server 返回500 error错误，页面中没有提示更多的报错信息。经过日志查看，发现日志中报了如下错误： 12 Mar 2018 21:25:41,903 ERROR [ale 阅读全文

posted @ 2018-04-04 23:26 梦里南柯阅读(688) 评论(0) 推荐(0)

ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'ambari'

摘要：配置Ambari远程maridb 报错： ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'ambari' 在环境搭建的过程中，在 #用Ambari用户（上面设置的用户）登录mysql ，(没有密码) mys 阅读全文

posted @ 2018-04-04 23:20 梦里南柯阅读(618) 评论(0) 推荐(0)

CDH安装时，部分节点不受管控

摘要：解决方案：问题描述：使用CDH 5.2版本安装时，agent节点有12个。按照安装说明，在各个节点启动cm-agent之后，发现只有6个节点能被纳管。其它的节点总是无法加入纳管中。在确认防火墙已经关闭后，仍然无法解决问题问题分析： 1. 查看已经加入纳管的节点，发现这6个节点并不是固定的，有阅读全文

posted @ 2018-04-04 23:17 梦里南柯阅读(682) 评论(0) 推荐(0)

CDH安装失败了，如何重新安装

摘要：1> 删除Agent节点的UUID # rm -rf /opt/cm-5.12.0/lib/cloudera-scm-agent/* 2> 清空主节点CM数据库进入主节点的Mysql数据库，然后drop database cm; 3> 删除Agent节点namenode和datanode节点信息阅读全文

posted @ 2018-04-04 23:15 梦里南柯阅读(4389) 评论(0) 推荐(0)

the path component: '/var' is world-writable

摘要：java.io.IOException: the path component: '/var' is world-writable. Its permissions are 0666. Please fix this or select a different socket path 解决方案： c 阅读全文

posted @ 2018-04-04 23:13 梦里南柯阅读(343) 评论(0) 推荐(0)

Kylin CDH安装

摘要：Kylin安装 [hadoop@hadoop3 cdh5.12.0]$ sudo tar -zxvf apache-kylin-2.0.0-bin-cdh57.tar.gz -C /opt/ [hadoop@hadoop3 opt]$ sudo chown -R hdfs:hdfs /opt/apa 阅读全文

posted @ 2018-04-04 17:24 梦里南柯阅读(428) 评论(0) 推荐(0)

安装mariadb报错： Job for mariadb.service failed because the control process exited with error code. See "systemctl status mariadb.service" and "journalctl -xe" for details.

摘要：卸载和删除都使用过了，没有起到效果，然后用了如下的方案，进行解决： CentOS 从 Yum 源安装配置 Mariadb 2017.03.01 WangYan 学习笔记热度 7℃ 一、安装 MariaDB 1.添加 MariaDB Yum 源 cat >/etc/yum.repos.d/Maria 阅读全文

posted @ 2018-04-04 17:12 梦里南柯阅读(2306) 评论(0) 推荐(0)

搭建Ambari 2.6.0 tar 解压缩报错

摘要：背景：我们使用的方式不是wget 去下载ambari的源码包，而是在windows 的 firefox 下直接下载，将文件存储到本地。执行 tar -zxvf HDP-2.6.3.0-centos7-rpm.tar.gz 后报错信息：tar 解压失败tar: Skipping to next h 阅读全文

posted @ 2018-04-04 17:09 梦里南柯阅读(238) 评论(0) 推荐(0)

Ambari 2.6.0 HDP 2.6.3集群搭建

摘要：1.安装环境说明三台机器安装好CentOS-7-x86_64-Minimal-1708.iso 下载地址：https://www.centos.org/download/ 最好在安装时设置好IP和HOSTNAME 三台机器的IP和HOSTNAME下载如下主 192.168.31.11 SY-00 阅读全文

posted @ 2018-04-03 20:51 梦里南柯阅读(2281) 评论(0) 推荐(0)

Hive数据导入Elasticsearch

摘要：Elasticsearch Jar包准备所有节点导入elasticsearch-hadoop-5.5.1.jar /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hive/lib/elasticsearch-hadoop-5.5.1.j 阅读全文

posted @ 2018-04-03 20:29 梦里南柯阅读(8230) 评论(0) 推荐(0)

ELK5+redhat7.4配置elasticsearch集群

摘要：ELK介绍 ELK是三个开源软件的缩写，即elasticsearch、logstack、kibana。 Elasticsearch：开源分布式搜索引擎，提供搜集、分析、存储数据三大功能。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等阅读全文

posted @ 2018-04-03 20:21 梦里南柯阅读(506) 评论(0) 推荐(0)

大数据笔记（三十二）——SparkStreaming集成Kafka与Flume

摘要：三、集成：数据源 1、Apache Kafka：一种高吞吐量的分布式发布订阅消息系统（1）（*）消息的类型（*）常见的消息系统 Kafka、Redis > 只支持Topic JMS(Java Messaging Service标准)：Topic、Queue > Weblogic （*）角色：生阅读全文

posted @ 2018-04-03 16:12 梦里南柯阅读(266) 评论(0) 推荐(0)

大数据笔记（三十一）——SparkStreaming详细介绍，开发spark程序

摘要：Spark Streaming: Spark用于处理流式数据的模块，类似Storm 核心：DStream（离散流），就是一个RDD 一、Spark Streaming基础 1、什么是Spark Streaming？（*）Spark Streaming makes it easy to build 阅读全文

posted @ 2018-04-03 15:08 梦里南柯阅读(369) 评论(0) 推荐(0)

大数据笔记（三十）——一篇文章读懂SparkSQL

摘要：Spark SQL：类似Hive 一、Spark SQL基础 1、什么是Spark SQL？ (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层：依赖RDD，把S 阅读全文

posted @ 2018-04-03 11:29 梦里南柯阅读(410) 评论(0) 推荐(0)

lingluo2017

04 2018 档案

公告