摘要: 1、什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main pr 阅读全文
posted @ 2018-03-31 22:30 梦里南柯 阅读(954) 评论(0) 推荐(0) 编辑
摘要: 一、执行Spark任务: 客户端 1、Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-e 阅读全文
posted @ 2018-03-31 14:59 梦里南柯 阅读(356) 评论(0) 推荐(0) 编辑
摘要: Spark Core 一、什么是Spark? 1、什么是Spark?生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈: 1、Spark Core 2、Spark SQL 3、S 阅读全文
posted @ 2018-03-31 14:24 梦里南柯 阅读(411) 评论(0) 推荐(0) 编辑
摘要: Scala语言的高级特性 一、Scala的集合 1、可变集合mutable 不可变集合immutable 2、列表:List 3、序列: 常用的序列: Vector、Range 运行结果: 4、集(Set): 是不重复元素的集合,默认的实现:HashSet 运行结果: 5、模式匹配:match 相当 阅读全文
posted @ 2018-03-31 13:47 梦里南柯 阅读(450) 评论(0) 推荐(0) 编辑
摘要: Scala函数式编程 一、Scala中的函数 (*) 函数是Scala中的头等公民,就和数字一样,可以在变量中存放函数,即:将函数作为变量的值(值函数)。 运行: 二、匿名函数:没有名字的函数 运行: 三、高阶函数:带函数参数的函数 注意:把一个函数作为另外一个函数的参数值 四、高阶函数示例 运行: 阅读全文
posted @ 2018-03-30 21:43 梦里南柯 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 原因一:没有添加scala sdk 解决:file=>project structure =>Global Libraries,添加scala-sdk: 没有scala sdk的可以去网上下载。 再检查一下.iml文件是否添加了scala sdk,没有的话加上: 原因二:可能是maven的配置问题: 阅读全文
posted @ 2018-03-29 23:26 梦里南柯 阅读(24958) 评论(0) 推荐(0) 编辑
摘要: Scala语言的面向对象编程 一、面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 class) 面向对象的特征: (1)封装 (2)继承 (3)多态 二、定义类: class,没有类的修饰符: public、protected、private 运行: 三、属性的get和set方 阅读全文
posted @ 2018-03-29 23:11 梦里南柯 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 一.Scala简介:一种多范式的编程语言 (*)面向对象 (*)函数式编程:Scala的最大特点 (*)基于JVM 二.Scala的运行环境 (1)命令行:REPL 进入: scala 退出::quit (*) paste 模式: 相当于vi编辑器 进入: :paste 退出: ctrl+D (2) 阅读全文
posted @ 2018-03-29 21:38 梦里南柯 阅读(287) 评论(0) 推荐(0) 编辑
摘要: redhat7 在安装ntp时报如下错误 Error: Package: ntp-4.2.6p5-25.el7.centos.2.x86_64 (base) Requires: ntpdate = 4.2.6p5-25.el7.centos.2 Installed: ntpdate-4.2.6p5- 阅读全文
posted @ 2018-03-28 21:20 梦里南柯 阅读(2184) 评论(0) 推荐(0) 编辑
摘要: 一. 1、对比:离线计算和实时计算 离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR > HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume > Kafka > 流式计算 > Redis) 2、常见的实时计算(流式计算)代表 (1)Ap 阅读全文
posted @ 2018-03-27 21:08 梦里南柯 阅读(3811) 评论(0) 推荐(0) 编辑