上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 24 下一页
摘要: Scala中使用关键字lazy来定义惰性变量,实现延迟加载(懒加载)。 惰性变量只能是不可变变量,并且只有在调用惰性变量时,才会去实例化这个变量。 在Java中,要实现延迟加载(懒加载),需要自己手动实现。一般的做法是这样的: 在Scala中对延迟加载这一特性提供了语法级别的支持: 使用lazy关键 阅读全文
posted @ 2018-04-17 20:18 扎心了,老铁 阅读(9784) 评论(0) 推荐(0) 编辑
摘要: 一、数组 1、定长数组和变长数组 运行结果 2、遍历数组 (1)增强for循环 (2)好用的until会生成脚标,0 until 10 包含0不包含10 3、数组转换 yield关键字将原始的数组进行转换会产生一个新的数组,原始的数组不变 4、常用数组的算法 在Scala中,数组上的某些方法对数组进 阅读全文
posted @ 2018-04-17 20:18 扎心了,老铁 阅读(5637) 评论(2) 推荐(4) 编辑
摘要: 一、Scala概述 scala是一门多范式编程语言,集成了面向对象编程和函数式编程等多种特性。scala运行在虚拟机上,并兼容现有的Java程序。Scala源代码被编译成java字节码,所以运行在JVM上,并可以调用现有的Java类库。 二、第一个Scala程序 Scala语句末尾的分号可写可不写 阅读全文
posted @ 2018-04-16 20:07 扎心了,老铁 阅读(8385) 评论(4) 推荐(1) 编辑
摘要: 目前Scala的开发工具主要有两种:Eclipse和IDEA,这两个开发工具都有相应的Scala插件,如果使用Eclipse,直接到Scala官网下载即可http://scala-ide.org/download/sdk.html。 由于IDEA的Scala插件更优秀,大多数Scala程序员都选择I 阅读全文
posted @ 2018-04-16 13:02 扎心了,老铁 阅读(7333) 评论(1) 推荐(1) 编辑
摘要: 1、Scala下载 版本选择,看spark官网 http://spark.apache.org/docs/latest/ spark2.3.0版本是用2.11版本的Scala进行开发的,所以此处下载Scala2.11的版本 Scala下载地址http://www.scala-lang.org/dow 阅读全文
posted @ 2018-04-16 10:45 扎心了,老铁 阅读(3742) 评论(0) 推荐(1) 编辑
摘要: 界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系,一个工程 阅读全文
posted @ 2018-04-15 15:58 扎心了,老铁 阅读(28234) 评论(3) 推荐(7) 编辑
摘要: 安装过程 1、软件介绍 Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 执行服务器:azkaban-executor-server-2.5.0.tar.gz Azkaban 初始化脚本文件:azkaban-sql-scr 阅读全文
posted @ 2018-04-15 15:53 扎心了,老铁 阅读(7220) 评论(0) 推荐(0) 编辑
摘要: 一、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能 阅读全文
posted @ 2018-04-15 15:51 扎心了,老铁 阅读(10448) 评论(2) 推荐(3) 编辑
摘要: 一、概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。 核心的功能有两个: 导入、迁入 导出、迁出 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系 阅读全文
posted @ 2018-04-15 15:48 扎心了,老铁 阅读(79380) 评论(8) 推荐(15) 编辑
摘要: 一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2018-04-15 15:46 扎心了,老铁 阅读(18257) 评论(3) 推荐(12) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 24 下一页