2020年8月11日

大数据集群运维（31）Spark提交任务时报beyond virtual memory limits错误

摘要：以Spark-Client模式运行，Spark-Submit时出现了下面的错误： User: hadoop Name: Spark Pi Application Type: SPARK Application Tags: YarnApplicationState: FAILED FinalStatu 阅读全文

posted @ 2020-08-11 22:30 大码王阅读(313) 评论(0) 推荐(0)

大数据集群运维（30）spark安装与使用（入门）

摘要：一：在linux下安装java环境（自行安装jdk）二：安装Scala2.9.3 $ tar -zxf scala-2.9.3.tgz $ sudo mv scala-2.9.3 /usr/lib $ sudo vim /etc/profile # add the following lines 阅读全文

posted @ 2020-08-11 18:21 大码王阅读(479) 评论(0) 推荐(0)

大数据集群运维（29）Zeppelin-在flink和spark集群的安装

摘要： Zeppelin-在flink和spark集群的安装该教程主要面向Zeppelin的入门者。不需要太多的关于 Linux, git, 或其它工具的基础知识。如果你按照这里的方法逐项执行，就可以将 Zeppelin 正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户阅读全文

posted @ 2020-08-11 17:50 大码王阅读(598) 评论(0) 推荐(0)

大数据集群运维（28） Kylin 配置使用 flink 构建 Cube

摘要：用 Flink 构建 Cube Kylin v3.1 引入了 Flink cube engine，在 build cube 步骤中使用 Apache Flink 代替 MapReduce；您可以查看 KYLIN-3758 了解具体信息。当前的文档使用样例 cube 对如何尝试 new engine 阅读全文

posted @ 2020-08-11 17:39 大码王阅读(795) 评论(0) 推荐(0)

大数据集群运维（27）Kylin 配置使用 Spark 构建 Cube

摘要： HDP版本：2.6.4.0 Kylin版本：2.5.1 机器：三台 CentOS-7，8G 内存 Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以 Kylin 自带的示例 kylinsalescube 来测试一下 Spark 构建 Cube 的速度。一、配置阅读全文

posted @ 2020-08-11 17:05 大码王阅读(383) 评论(0) 推荐(0)

大数据集群运维（26）Apache Kylin 2.5.0安装和使用

摘要： 1.背景 Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Apache Kylin官网：http://kylin.apache.o 阅读全文

posted @ 2020-08-11 16:58 大码王阅读(546) 评论(0) 推荐(0)

大数据集群运维（25）CDH安装

摘要： CDH 安装市场上免费大数据框架主要有三个版本，原生的 Apache 版本，Cloudera(https://www.cloudera.com/) 公司研发的（Cloudera Distribution Hadoop，简称“CDH”）CDH 版本，也是市场上使用最多的，Hortonworks 版本阅读全文

posted @ 2020-08-11 16:44 大码王阅读(526) 评论(0) 推荐(0)

大数据集群运维（24）kylin 系列（一）安装部署

摘要： kylin 系列（一）安装部署一、环境说明 1.1 版本选择 cdh 版本下载地址：http://archive.cloudera.com/cdh5/cdh/5/ 软件名称版本 JDK 1.8 HADOOP Hadoop2.6.0-cdh5.10 ZOOKEERER 3.4.5 HBASE Hba 阅读全文

posted @ 2020-08-11 16:42 大码王阅读(437) 评论(0) 推荐(0)

公告