上一页 1 2 3 4 5 6 ··· 13 下一页
摘要:背景: 使用脚本ssh tuge2 ""/opt/zookeeper/apache-zookeeper-3.5.5-bin/bin/zkServer.sh start""的时候,报了如下异常: Exception in thread "main" java.lang.UnsupportedClass 阅读全文
posted @ 2020-07-18 14:41 数据驱动 阅读(184) 评论(0) 推荐(0) 编辑
摘要:前言 不进行优化的代码就是耍流氓。 总体来说大数据优化主要分为三点,一是充分利用CPU,二是节省内存,三是减少网络传输。 一、Hive/MapReduce调优 1.1 本地模式 Hive默认采用集群模式进行计算,如果对于小数据量,可以设置为单台机器进行计算,这样可以大大缩减查询触发任务时间。 用户可 阅读全文
posted @ 2020-07-15 23:17 数据驱动 阅读(433) 评论(0) 推荐(0) 编辑
摘要:package com.bi import java.sql.{Connection, DriverManager, Timestamp} import java.util.Calendar /** * Created by xxx on 2017/6/28. */ object MySqlConn 阅读全文
posted @ 2020-07-10 22:32 数据驱动 阅读(54) 评论(0) 推荐(0) 编辑
摘要:格式说明: Letter Date or Time Component Presentation Examples G Era designator Text AD y Year Year 1996; 96 Y Week year Year 2009; 09 M Month in year Mont 阅读全文
posted @ 2020-07-10 12:12 数据驱动 阅读(447) 评论(0) 推荐(0) 编辑
摘要:官网参考 常用命令: hdfs dfs -put text.txt /opt/user/root/text.txt //将文件进行上传(-put 本地路径 hdfs路径) hadoop fs -get /test/test1.har /data/test//将文件下载到本地 (-get hdfs路径 阅读全文
posted @ 2020-07-02 11:31 数据驱动 阅读(98) 评论(0) 推荐(0) 编辑
摘要:一、简介 在提交大数据作业到集群上运行时,通常需要先将项目打成 JAR 包。这里以 Maven 为例,常用打包方式如下: 不加任何插件,直接使用 mvn package 打包; 使用 maven-assembly-plugin 插件; 使用 maven-shade-plugin 插件; 使用 mav 阅读全文
posted @ 2020-06-30 10:47 数据驱动 阅读(101) 评论(0) 推荐(0) 编辑
摘要:一、Flow 2.0 简介 1.1 Flow 2.0 的产生 Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ,但是官方文档上更推荐使用 Flow 2.0,因为 Flow 1.0 会在将来的版本被移除。Flow 2.0 的主要设计思想是提供 1.0 所没有的流级定义。用户可以将属 阅读全文
posted @ 2020-06-29 16:12 数据驱动 阅读(250) 评论(0) 推荐(0) 编辑
摘要:一、简介 Azkaban 主要通过界面上传配置文件来进行任务的调度。它有两个重要的概念: Job: 你需要执行的调度任务; Flow:一个获取多个 Job 及它们之间的依赖关系所组成的图表叫做 Flow。 目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0,本文主要讲解 阅读全文
posted @ 2020-06-29 16:06 数据驱动 阅读(105) 评论(0) 推荐(0) 编辑
摘要:一、Azkaban 源码编译 1.1 下载并解压 Azkaban 在 3.0 版本之后就不提供对应的安装包,需要自己下载源码进行编译。 下载所需版本的源码,Azkaban 的源码托管在 GitHub 上,地址为 https://github.com/azkaban/azkaban 。可以使用 git 阅读全文
posted @ 2020-06-29 15:58 数据驱动 阅读(92) 评论(0) 推荐(0) 编辑
摘要:一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何 阅读全文
posted @ 2020-06-29 15:53 数据驱动 阅读(104) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 13 下一页