上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 任务执行流程 宏观执行流程 通过 bin/spark-submit -class [主类] --master [启动模式] --deploy-mode client WordCounter.jar ./input ./output 脚本启动任务; 启动 Driver,执行用户类的 main 方法,完 阅读全文
posted @ 2024-07-18 10:43 Stitches 阅读(24) 评论(0) 推荐(0)
摘要: Transformation 转换算子 RDD 整体上分为 Value、双Value、Key-Value 三种类型。 Value 类型 Map算子 函数签名 def map[U:ClassTag](f:T=>U):RDD[U],它通过接受一个参数,并且遍历该 RDD 中每一个数据项,依次应用函数 f 阅读全文
posted @ 2024-07-15 00:16 Stitches 阅读(29) 评论(0) 推荐(0)
摘要: 运行案例程序 计算圆周率——Local Local 模式下,解压安装 spark 后,运行 example 包下的案例程序: bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples 阅读全文
posted @ 2024-07-15 00:16 Stitches 阅读(29) 评论(0) 推荐(0)
摘要: Spark Spark 作为分布式计算框架,基于 MapReduce 框架开发,但是也有以下区别: Spark 基于 Scala 语言开发,MR 基于 Java 语言开发;Scala 是函数式编程语言,对于函数间相互调用效率更高;而 Java 是面向对象语言,函数间调用必须依赖于对象,效率低。 Ma 阅读全文
posted @ 2024-07-11 23:10 Stitches 阅读(68) 评论(0) 推荐(0)
摘要: Scala Scala特点: 和 Java 无缝整合,满足各自语法基础上调用 Java 库; 类型推断,类似于 Golang,Scala 通过 val 声明常量,通过 var 声明变量。 支持并行和分布式; 高阶函数编程,可以理解为面向对象编程,但是函数可以作为对象并当作参数传入。 数据类型 Nul 阅读全文
posted @ 2024-07-10 15:29 Stitches 阅读(92) 评论(0) 推荐(0)
摘要: Yarn Hadoop 1.x 中包括 HDFS、MapReduce,其中 MapReduce 既是计算框架又是资源管理框架,它的架构为主从架构。 JobTracker 作为主节点,接受客户端提交的作业 Job,然后为该 Job 在 TaskTracker 上分配资源,之后将 Job 拆分为 Tas 阅读全文
posted @ 2024-06-28 20:00 Stitches 阅读(22) 评论(0) 推荐(0)
摘要: MapReduce 模型 MapReduce 核心思想是移动任务而非移动数据 MapReduce 是一种编程模型,对数据集执行 MAP 映射,然后对结果进行 Reduce 规约,适用于大规模数据集的并行计算。核心思想可以理解为分治法,数据固定不动,分派计算任务到不同计算节点计算。 模型介绍 MapR 阅读全文
posted @ 2024-06-28 20:00 Stitches 阅读(48) 评论(0) 推荐(0)
摘要: HDFS HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。 HDFS 有以下缺点: 不适合低延迟的数据访问,因为数据存储到 HDFS 上,首先会切分为固定大小的数据块,然后对每块存储并进行多副本备份。读取数据时首先要从各个节点读取小数据块然后合并 阅读全文
posted @ 2024-06-26 20:19 Stitches 阅读(31) 评论(0) 推荐(0)
摘要: Hadoop 不同版本的组成 MapReduce 模型 MapReduce 是一种编程模型,对数据集执行 MAP 映射,然后对结果进行 Reduce 规约,适用于大规模数据集的并行计算。核心思想可以理解为分治法,数据固定不动,分派计算任务到不同计算节点计算。 模型介绍 MapReduce 适用场景: 阅读全文
posted @ 2024-06-26 20:19 Stitches 阅读(15) 评论(0) 推荐(0)
摘要: 生态架构 数据导入 离线方式处理的数据,需要通过 ETL 模块实现导入到大数据存储系统进行存储;其中 Sqoop 是常见的抽取结构化数据工具,而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。 数据存储 大数据的数据存储系统,最常见的包括分布式文件系统 HDFS;如果需要使用 阅读全文
posted @ 2024-06-26 20:19 Stitches 阅读(20) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 14 下一页