上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: 一、前言 Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎。至于为什么提高了计算速度,可以参考下图: 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。 Tez可以将多个有依赖的作业 阅读全文
posted @ 2020-07-19 15:25 数据驱动 阅读(8590) 评论(0) 推荐(0) 编辑
摘要: 背景: 使用脚本ssh tuge2 ""/opt/zookeeper/apache-zookeeper-3.5.5-bin/bin/zkServer.sh start""的时候,报了如下异常: Exception in thread "main" java.lang.UnsupportedClass 阅读全文
posted @ 2020-07-18 14:41 数据驱动 阅读(861) 评论(0) 推荐(0) 编辑
摘要: 前言 不进行优化的代码就是耍流氓。 总体来说大数据优化主要分为三点,一是充分利用CPU,二是节省内存,三是减少网络传输。 一、Hive/MapReduce调优 1.1 本地模式 Hive默认采用集群模式进行计算,如果对于小数据量,可以设置为单台机器进行计算,这样可以大大缩减查询触发任务时间。 用户可 阅读全文
posted @ 2020-07-15 23:17 数据驱动 阅读(2111) 评论(0) 推荐(0) 编辑
摘要: package com.bi import java.sql.{Connection, DriverManager, Timestamp} import java.util.Calendar /** * Created by xxx on 2017/6/28. */ object MySqlConn 阅读全文
posted @ 2020-07-10 22:32 数据驱动 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 格式说明: Letter Date or Time Component Presentation Examples G Era designator Text AD y Year Year 1996; 96 Y Week year Year 2009; 09 M Month in year Mont 阅读全文
posted @ 2020-07-10 12:12 数据驱动 阅读(2906) 评论(0) 推荐(0) 编辑
摘要: 官网参考 常用命令: hdfs dfs -put text.txt /opt/user/root/text.txt //将文件进行上传(-put 本地路径 hdfs路径) hadoop fs -get /test/test1.har /data/test//将文件下载到本地 (-get hdfs路径 阅读全文
posted @ 2020-07-02 11:31 数据驱动 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 一、简介 在提交大数据作业到集群上运行时,通常需要先将项目打成 JAR 包。这里以 Maven 为例,常用打包方式如下: 不加任何插件,直接使用 mvn package 打包; 使用 maven-assembly-plugin 插件; 使用 maven-shade-plugin 插件; 使用 mav 阅读全文
posted @ 2020-06-30 10:47 数据驱动 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 一、Flow 2.0 简介 1.1 Flow 2.0 的产生 Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ,但是官方文档上更推荐使用 Flow 2.0,因为 Flow 1.0 会在将来的版本被移除。Flow 2.0 的主要设计思想是提供 1.0 所没有的流级定义。用户可以将属 阅读全文
posted @ 2020-06-29 16:12 数据驱动 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: 一、简介 Azkaban 主要通过界面上传配置文件来进行任务的调度。它有两个重要的概念: Job: 你需要执行的调度任务; Flow:一个获取多个 Job 及它们之间的依赖关系所组成的图表叫做 Flow。 目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0,本文主要讲解 阅读全文
posted @ 2020-06-29 16:06 数据驱动 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 一、Azkaban 源码编译 1.1 下载并解压 Azkaban 在 3.0 版本之后就不提供对应的安装包,需要自己下载源码进行编译。 下载所需版本的源码,Azkaban 的源码托管在 GitHub 上,地址为 https://github.com/azkaban/azkaban 。可以使用 git 阅读全文
posted @ 2020-06-29 15:58 数据驱动 阅读(821) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页