Huidoo_Yang - 博客园

[置顶] Scala编程快速入门系列（二）

摘要：本文较为详细地介绍了Scala的理论，并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介，数据类型，函数（函数定义、匿名函数、嵌套函数、循环语句等），集合（List、Tuple、Map），伴生对象，trait，Actor，隐式转换，JDBC等。阅读全文

posted @ 2018-03-17 07:10 Huidoo_Yang 阅读(4034) 评论(1) 推荐(4)

[置顶] Scala编程快速入门系列（一）

摘要：本文较为详细地介绍了Scala的理论，并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介，数据类型，函数（函数定义、匿名函数、嵌套函数、循环语句等），集合（List、Tuple、Map），伴生对象，trait，Actor，隐式转换，JDBC等。阅读全文

posted @ 2018-03-16 07:07 Huidoo_Yang 阅读(5544) 评论(2) 推荐(4)

[置顶] awk使用方法与案例介绍

摘要： awk的使用语法介绍，awk的调用方式，以及相关的案例讲解。阅读全文

posted @ 2018-03-07 18:47 Huidoo_Yang 阅读(1469) 评论(0) 推荐(2)

[置顶] 快速掌握Shell编程

摘要：本文旨在使读者能快速掌握Shell编程的基本技术，从Shell编程的概述，变量，输出重定向进行了详细的讲解。并且介绍了Shell脚本的编写方法，条件判断、算术运算符、文件与字符串测试和循环语句等。阅读全文

posted @ 2018-03-05 20:58 Huidoo_Yang 阅读(1910) 评论(0) 推荐(4)

[置顶] yum源配置的三种方法

摘要：本文介绍了三种yum源配置的方法，一是阿里云源、二是使用CentOS的iso文件在本地挂载的方式配置yum源、三是利用远程挂载目录配置yum源。阅读全文

posted @ 2018-03-04 21:34 Huidoo_Yang 阅读(215697) 评论(0) 推荐(5)

2019年8月26日

部署Kettle做ETL开发并使用Crontab制作调度系统

摘要： Linux环境下部署Kettle，Kettle配置文件的使用说明。制作作业调度脚本、日志清理脚本，使用Crontab做定时任务。最终达到一键上传，实现脚本上线，并可在相应日志中查看每个调度周期脚本执行情况。本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统，以便处理类似问题时方案的复用。阅读全文

posted @ 2019-08-26 08:48 Huidoo_Yang 阅读(3091) 评论(0) 推荐(0)

2018年6月27日

大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录

摘要：一、背景介绍最近几天，接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务。而申请的这个ODPS平台是属于政务内网的，因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的，所以不能使用数据采集工作流模板。然而，考虑到原大数据平台数据量并不是很大，可以通过将原大数据平台阅读全文

posted @ 2018-06-27 18:17 Huidoo_Yang 阅读(2774) 评论(0) 推荐(0)

2018年4月1日

RDD转换算子与操作算子

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2018-04-01 18:49 Huidoo_Yang 阅读(29) 评论(0) 推荐(0)

RDD概念、特性、缓存策略与容错

摘要：一、RDD概念与特性 1. RDD的概念 RDD（Resilient Distributed Dataset），是指弹性分布式数据集。数据集：Spark中的编程是基于RDD的，将原始数据加载到内存变成RDD，RDD再经过若干次转化，仍为RDD。分布式：读数据一般都是从分布式系统中去读，如hdfs、k 阅读全文

posted @ 2018-04-01 15:16 Huidoo_Yang 阅读(1376) 评论(0) 推荐(2)

2018年3月20日

[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）

摘要： Flume的概述，基本组件，工作原理。Source、Sink、Channel的种类介绍。Taildir Source和HDFS Sink的属性配置。以及使用变量，动态生成hdfs的path路径。阅读全文

posted @ 2018-03-20 20:30 Huidoo_Yang 阅读(2002) 评论(0) 推荐(1)

2018年3月11日

Hive 编程之DDL、DML、UDF、Select总结

摘要：本文将Hive编程从命令行、DDL、UDF、DML、Select等方面结合官方文档进行了较为详细的总结，并在相关的知识点给出相应的例子进行说明。阅读全文

posted @ 2018-03-11 11:20 Huidoo_Yang 阅读(1747) 评论(0) 推荐(3)

2018年3月8日

Apache Hive 基本理论与安装指南

摘要：本文讲述了Hive的基本理论，hive与Hadoop的关系，Apache hive的安装步骤，使用关系型数据库存储hive元数据的方法等。阅读全文