上一页 1 2 3 4 5 6 ··· 25 下一页
摘要: 实验 2 Scala 编程初级实践 一、实验目的 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4 阅读全文
posted @ 2024-01-29 20:35 代不动码 阅读(12) 评论(0) 推荐(0)
摘要: 实验1 Linux系统的安装和常用命令 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同时,下一章的 Scala 语言也会在 Lin 阅读全文
posted @ 2024-01-28 22:05 代不动码 阅读(9) 评论(0) 推荐(0)
摘要: 1.RDD定义:弹性分布式数据集,是spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合 2.RDD五大特性 A list of partitions:RDD是有分区的A function for computing each split:计算方法会做用到每一个分片(分区 阅读全文
posted @ 2024-01-27 21:47 代不动码 阅读(14) 评论(0) 推荐(0)
摘要: 实验环境:(1)操作系统:Linux (2)Hadoop版本:3.1.3; (3)JDK版本:1.8; (4)Java IDE: 实验内容与完成情况:(一)编程实现以下功能,并利用Hadoop提供的Shell命令完成相同任务: (1) 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在 阅读全文
posted @ 2024-01-26 11:18 代不动码 阅读(61) 评论(0) 推荐(0)
摘要: 1.分布式代码执行的重要特征 代码在集群上运行,是分布式运行的 在spark中,非任务处理部分由driver执行(非rdd代码) 任务处理部分由executor执行(rdd代码) executor的数量可以很多,所以人物的计算是分布式在运行的 2.pyspark的架构体系 python on spa 阅读全文
posted @ 2024-01-25 21:18 代不动码 阅读(8) 评论(0) 推荐(0)
摘要: 1.python语言开发spark程序的步骤 主要是获取spark context对象,就isparkcontext对象作为执行环境入口2.如何提交spark应用 将程序代码上传到服务器上通过spark客户端工具进行提交 注意: 1.在代码中不要设置master,如果设置一代码为准spark-sub 阅读全文
posted @ 2024-01-24 13:14 代不动码 阅读(11) 评论(0) 推荐(0)
摘要: 1.框架 vs 类库 类库:一堆别人写好的代码,你可以导入进使用。pandas就是python的类库 框架:可以独立运行,并提供变成结构的一种软件产品 。spark就是一个独立的框架 pandas:用于小规模数据集的处理 spark:用于大规模数据集的处理 2.pyspark:spark官方提供的一 阅读全文
posted @ 2024-01-23 14:32 代不动码 阅读(15) 评论(0) 推荐(0)
摘要: 1.spark on yarn的本质 master角色由yarn的resouorcemanager担任 worker角色由yarn的nodemanager担任 driver角色运行在yarn容器内或提交任务的客户端进程 真正干活的executor运行在yarn提供的容器内 2.spark on ya 阅读全文
posted @ 2024-01-22 12:46 代不动码 阅读(15) 评论(0) 推荐(0)
摘要: 1.standalone HA的运行原理: 为解决单点故障问题,spark由两种方案:基于文件系统的单点恢复(只能用于开发或测试环境)、基于zookeeper的standby master(可以用于生产环境);基于zookeeper做状态的维护,开启多个master进程,一个作为活跃,其他的作为备份 阅读全文
posted @ 2024-01-21 12:43 代不动码 阅读(11) 评论(0) 推荐(0)
摘要: 1.standalone是一个完整的分布式集群环境;standalone集群在进程上主要有三类进程:主节点master及昵称、从节点的worker进程、历史服务器哦historyserver(可选) 2.4040:是一个运行的application在运行的过程中临时绑定的端口,用以查看当前任务的状态 阅读全文
posted @ 2024-01-20 23:02 代不动码 阅读(10) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 25 下一页