lenmom

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 43 下一页

2019年2月9日 #

摘要: 1. 环境准备: JDK1.8 hive 2.3.4 hadoop 2.7.3 hbase 1.3.3 scala 2.11.12 mysql5.7 2. 下载spark2.0.0 3. 配置系统环境变量 末尾添加 4. 配置spark-env.sh 末尾添加: 5. 配置spark-default 阅读全文
posted @ 2019-02-09 00:35 老董 阅读(2327) 评论(0) 推荐(0)

2019年2月8日 #

摘要: 原文地址:http://www.cnblogs.com/breg/p/5552342.html 装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。 先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是 阅读全文
posted @ 2019-02-08 23:26 老董 阅读(939) 评论(0) 推荐(0)

2019年2月6日 #

摘要: Hive默认使用MapReduce作为执行引擎,即Hive on mr,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很 阅读全文
posted @ 2019-02-06 23:35 老董 阅读(1464) 评论(0) 推荐(0)

摘要: 查看hive source下面的pom.xml,可以找到官方默认发布的hive版本对应的spark版本,在实际部署的时候,最好按照这个版本关系来,这样出现兼容问题的概率相对较小。 下面面列出一部分对应关系,在实际部署中可以到github上去查询具体的版本对应关系,地址为https://github. 阅读全文
posted @ 2019-02-06 21:14 老董 阅读(8652) 评论(0) 推荐(1)

2019年2月2日 #

摘要: 1. 安装ntp时间同步工具 一般来讲,经过这几部之后,应该就OK了。关于时间服务的网址,可以到http://www.ntp.org.cn/pool.php查阅. 有些时候,在执行ntpdate cn.pool.ntp.org的时候会出现下面的错误: 可以使用ntpdate -d {ip or ur 阅读全文
posted @ 2019-02-02 11:57 老董 阅读(5461) 评论(0) 推荐(0)

2019年1月29日 #

摘要: 1. 环境准备 zookeeper3.4.12 mysql5.7 hive2.3.4 hadoop2.7.3 JDK1.8 hbase1.3.3 2. 集群规划 3. 下载kylin2.6 4. 添加系统环境变量 在文件末尾添加 :wq保存退出,并输入source /etc/profile使环境变量 阅读全文
posted @ 2019-01-29 00:14 老董 阅读(3970) 评论(4) 推荐(2)

2019年1月28日 #

摘要: 1. 脚本使用小结1.开启集群 2.关闭集群 3.开启/关闭【所有】的regionserver、zookeeper 4.开启/关闭【单个】的regionserver、zookeeper 5.开启/关闭master 是否成为active master取决于当前是否有active master 2. 两 阅读全文
posted @ 2019-01-28 17:42 老董 阅读(924) 评论(0) 推荐(0)

摘要: 1. 集群规划 2. 环境准备 安装JDK 安装zookeeper3.4.12 安装mysql5.7 安装hive2.3.4 安装hadoop2.7.3 hbase和hadoop存在版本依赖关系,所有安装之前请先确定好hbase和hadoop是否支持,具体版本支持关系可以到hbase官方页面上查看: 阅读全文
posted @ 2019-01-28 13:29 老董 阅读(1943) 评论(0) 推荐(0)

2019年1月25日 #

摘要: 1. 定义要发送的消息User POJO 2. 定义序列化User POJO序列化器 此序列化器使用了org.codehaus.jackson.jackson-mapper-asl.jar来进行序列化为jason 3. 定义partitioner 4. 定义发送的消息统计拦截器 5. Produce 阅读全文
posted @ 2019-01-25 18:28 老董 阅读(448) 评论(0) 推荐(0)

摘要: 原文链接:https://www.cnblogs.com/zengkefu/p/5634853.html 1. page cache linux操作系统默认情况下写都是有写缓存的,可以使用direct IO方式绕过操作系统的写缓存。当你写一串数据时,系统会开辟一块内存区域缓存这些数据,这块区域就是我 阅读全文
posted @ 2019-01-25 13:09 老董 阅读(1409) 评论(0) 推荐(0)

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 43 下一页