寒假学习记录10_Scala面向对象编程基础5

一、大数据的学习笔记

Spark的设计与运行原理

1、作为一种分布式计算框架,Spark在设计上充分借鉴吸收了MapReduce的核心思想,并对MapReduce中存在的问题进行了改进,获得了很好的实时性能。

2、RDD是Spark的数据抽象,一个RDD是一个只读的分布式数据集,可以通过转换操作在转换过程中对RDD进行各种变换。

3、一个复杂的Spark应用程序,就是通过一次又一次的RDD操作组合完成的。

4、RDD操作包括两种类型,即转换操作和行动操作。

5、Spark采用了惰性机制,在代码中遇到转换操作时,并不会马上开始计算,而是记录转换的轨迹,只有当遇到行动操作时,才会触发从头到尾的计算。

6、当遇到行动操作时,就会生成一个作业,这个作业会被划分成若干个阶段,每个阶段包含若干个任务,各个任务会被分发到不同的节点上并行执行。

二、maven的使用体会

①eclipse下搭建步骤参考博客:https://www.cnblogs.com/luyanjie/p/10463790.html

重点记录:

修改仓库地址<localRepository>XXX</localRepository>

设置下载源:

<mirror>

<id>nexus-aliyun</id>
<mirrorOf>*</mirrorOf>
<name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
②虽然搭建好了maven但我还是在之前的web项目上编写,因此有如下使用经验。
建立一个maven项目。当web项目缺少某个包时,可以搜索这个包的依赖,在maven项目里下载好之后再把包放到当前项目下。
以后直接在maven项目里编写就不用这样麻烦了,maven找包确实挺方便的。

 

posted on 2020-02-10 23:00  丸za  阅读(119)  评论(0)    收藏  举报

导航