老董 - 博客园

spark 2.0.0集群安装与hive on spark配置

摘要： 1. 环境准备: JDK1.8 hive 2.3.4 hadoop 2.7.3 hbase 1.3.3 scala 2.11.12 mysql5.7 2. 下载spark2.0.0 3. 配置系统环境变量末尾添加 4. 配置spark-env.sh 末尾添加: 5. 配置spark-default 阅读全文

posted @ 2019-02-09 00:35 老董阅读(2327) 评论(0) 推荐(0)

hive on spark的坑

摘要：原文地址:http://www.cnblogs.com/breg/p/5552342.html 装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是阅读全文

posted @ 2019-02-08 23:26 老董阅读(939) 评论(0) 推荐(0)

Spark2.0.0源码编译

摘要： Hive默认使用MapReduce作为执行引擎，即Hive on mr，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很阅读全文

posted @ 2019-02-06 23:35 老董阅读(1464) 评论(0) 推荐(0)

hive spark版本对应关系

摘要：查看hive source下面的pom.xml，可以找到官方默认发布的hive版本对应的spark版本，在实际部署的时候，最好按照这个版本关系来，这样出现兼容问题的概率相对较小。下面面列出一部分对应关系，在实际部署中可以到github上去查询具体的版本对应关系，地址为https://github. 阅读全文

posted @ 2019-02-06 21:14 老董阅读(8652) 评论(0) 推荐(1)

CentOS7 设置集群时间同步

摘要： 1. 安装ntp时间同步工具一般来讲，经过这几部之后，应该就OK了。关于时间服务的网址，可以到http://www.ntp.org.cn/pool.php查阅. 有些时候，在执行ntpdate cn.pool.ntp.org的时候会出现下面的错误：可以使用ntpdate -d {ip or ur 阅读全文

posted @ 2019-02-02 11:57 老董阅读(5461) 评论(0) 推荐(0)

CentOS7 安装kylin2.6.0集群

摘要： 1. 环境准备 zookeeper3.4.12 mysql5.7 hive2.3.4 hadoop2.7.3 JDK1.8 hbase1.3.3 2. 集群规划 3. 下载kylin2.6 4. 添加系统环境变量在文件末尾添加 :wq保存退出，并输入source /etc/profile使环境变量阅读全文

posted @ 2019-01-29 00:14 老董阅读(3970) 评论(4) 推荐(2)

HBase脚本命令

摘要： 1. 脚本使用小结1.开启集群 2.关闭集群 3.开启/关闭【所有】的regionserver、zookeeper 4.开启/关闭【单个】的regionserver、zookeeper 5.开启/关闭master 是否成为active master取决于当前是否有active master 2. 两阅读全文

posted @ 2019-01-28 17:42 老董阅读(924) 评论(0) 推荐(0)

CentOS7 安装 hbase1.3.3

摘要： 1. 集群规划 2. 环境准备安装JDK 安装zookeeper3.4.12 安装mysql5.7 安装hive2.3.4 安装hadoop2.7.3 hbase和hadoop存在版本依赖关系，所有安装之前请先确定好hbase和hadoop是否支持，具体版本支持关系可以到hbase官方页面上查看: 阅读全文

posted @ 2019-01-28 13:29 老董阅读(1943) 评论(0) 推荐(0)

kafka producer实例

摘要： 1. 定义要发送的消息User POJO 2. 定义序列化User POJO序列化器此序列化器使用了org.codehaus.jackson.jackson-mapper-asl.jar来进行序列化为jason 3. 定义partitioner 4. 定义发送的消息统计拦截器 5. Produce 阅读全文

posted @ 2019-01-25 18:28 老董阅读(448) 评论(0) 推荐(0)

linux IO 内核参数调优之原理和参数介绍

摘要：原文链接:https://www.cnblogs.com/zengkefu/p/5634853.html 1. page cache linux操作系统默认情况下写都是有写缓存的，可以使用direct IO方式绕过操作系统的写缓存。当你写一串数据时，系统会开辟一块内存区域缓存这些数据，这块区域就是我阅读全文

posted @ 2019-01-25 13:09 老董阅读(1409) 评论(0) 推荐(0)

lenmom

公告