摘要:Linux环境下部署Kettle,Kettle配置文件的使用说明。制作作业调度脚本、日志清理脚本,使用Crontab做定时任务。最终达到一键上传,实现脚本上线,并可在相应日志中查看每个调度周期脚本执行情况。本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统,以便处理类似问题时方案的复用。 阅读全文
posted @ 2019-08-26 08:48 Huidoo_Yang 阅读 (270) 评论 (0) 编辑
摘要:一、背景介绍 最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务。而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板。 然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台 阅读全文
posted @ 2018-06-27 18:17 Huidoo_Yang 阅读 (1043) 评论 (0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-01 18:49 Huidoo_Yang 阅读 (22) 评论 (0) 编辑
摘要:一、RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从分布式系统中去读,如hdfs、k 阅读全文
posted @ 2018-04-01 15:16 Huidoo_Yang 阅读 (484) 评论 (0) 编辑
摘要:Flume的概述,基本组件,工作原理。Source、Sink、Channel的种类介绍。Taildir Source和HDFS Sink的属性配置。以及使用变量,动态生成hdfs的path路径。 阅读全文
posted @ 2018-03-20 20:30 Huidoo_Yang 阅读 (960) 评论 (0) 编辑
摘要:本文较为详细地介绍了Scala的理论,并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介,数据类型,函数(函数定义、匿名函数、嵌套函数、循环语句等),集合(List、Tuple、Map),伴生对象,trait,Actor,隐式转换,JDBC等。 阅读全文
posted @ 2018-03-17 07:10 Huidoo_Yang 阅读 (1528) 评论 (1) 编辑
摘要:本文较为详细地介绍了Scala的理论,并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介,数据类型,函数(函数定义、匿名函数、嵌套函数、循环语句等),集合(List、Tuple、Map),伴生对象,trait,Actor,隐式转换,JDBC等。 阅读全文
posted @ 2018-03-16 07:07 Huidoo_Yang 阅读 (1754) 评论 (2) 编辑
摘要:本文将Hive编程从命令行、DDL、UDF、DML、Select等方面结合官方文档进行了较为详细的总结,并在相关的知识点给出相应的例子进行说明。 阅读全文
posted @ 2018-03-11 11:20 Huidoo_Yang 阅读 (553) 评论 (0) 编辑
摘要:本文讲述了Hive的基本理论,hive与Hadoop的关系,Apache hive的安装步骤,使用关系型数据库存储hive元数据的方法等。 阅读全文
posted @ 2018-03-08 20:28 Huidoo_Yang 阅读 (1336) 评论 (0) 编辑
摘要:awk的使用语法介绍,awk的调用方式,以及相关的案例讲解。 阅读全文
posted @ 2018-03-07 18:47 Huidoo_Yang 阅读 (350) 评论 (0) 编辑