寒假学习记录10_Scala面向对象编程基础5

一、大数据的学习笔记

Spark的设计与运行原理

1、作为一种分布式计算框架，Spark在设计上充分借鉴吸收了MapReduce的核心思想，并对MapReduce中存在的问题进行了改进，获得了很好的实时性能。

2、RDD是Spark的数据抽象，一个RDD是一个只读的分布式数据集，可以通过转换操作在转换过程中对RDD进行各种变换。

3、一个复杂的Spark应用程序，就是通过一次又一次的RDD操作组合完成的。

4、RDD操作包括两种类型，即转换操作和行动操作。

5、Spark采用了惰性机制，在代码中遇到转换操作时，并不会马上开始计算，而是记录转换的轨迹，只有当遇到行动操作时，才会触发从头到尾的计算。

6、当遇到行动操作时，就会生成一个作业，这个作业会被划分成若干个阶段，每个阶段包含若干个任务，各个任务会被分发到不同的节点上并行执行。

二、maven的使用体会

重点记录：

修改仓库地址<localRepository>XXX</localRepository>

设置下载源：

<mirror>

<id>nexus-aliyun</id>

<mirrorOf>*</mirrorOf>

<name>Nexus aliyun</name>

<url>http://maven.aliyun.com/nexus/content/groups/public</url>

</mirror>

②虽然搭建好了maven但我还是在之前的web项目上编写，因此有如下使用经验。

建立一个maven项目。当web项目缺少某个包时，可以搜索这个包的依赖，在maven项目里下载好之后再把包放到当前项目下。

以后直接在maven项目里编写就不用这样麻烦了，maven找包确实挺方便的。

posted on 2020-02-10 23:00 丸za 阅读(125) 评论(0) 收藏举报

刷新页面返回顶部