寒假学习记录10_Scala面向对象编程基础5
一、大数据的学习笔记
Spark的设计与运行原理
1、作为一种分布式计算框架,Spark在设计上充分借鉴吸收了MapReduce的核心思想,并对MapReduce中存在的问题进行了改进,获得了很好的实时性能。
2、RDD是Spark的数据抽象,一个RDD是一个只读的分布式数据集,可以通过转换操作在转换过程中对RDD进行各种变换。
3、一个复杂的Spark应用程序,就是通过一次又一次的RDD操作组合完成的。
4、RDD操作包括两种类型,即转换操作和行动操作。
5、Spark采用了惰性机制,在代码中遇到转换操作时,并不会马上开始计算,而是记录转换的轨迹,只有当遇到行动操作时,才会触发从头到尾的计算。
6、当遇到行动操作时,就会生成一个作业,这个作业会被划分成若干个阶段,每个阶段包含若干个任务,各个任务会被分发到不同的节点上并行执行。
二、maven的使用体会
①eclipse下搭建步骤参考博客:https://www.cnblogs.com/luyanjie/p/10463790.html
重点记录:
修改仓库地址<localRepository>XXX</localRepository>
设置下载源:
<mirror>
<id>nexus-aliyun</id><mirrorOf>*</mirrorOf><name>Nexus aliyun</name><url>http://maven.aliyun.com/nexus/content/groups/public</url></mirror>②虽然搭建好了maven但我还是在之前的web项目上编写,因此有如下使用经验。
建立一个maven项目。当web项目缺少某个包时,可以搜索这个包的依赖,在maven项目里下载好之后再把包放到当前项目下。
以后直接在maven项目里编写就不用这样麻烦了,maven找包确实挺方便的。
浙公网安备 33010602011771号