随笔分类 - Spark
Spark
摘要:前两天文章说了海南IT互联网相关数据提到公司数量很多,但招聘的岗位很少的问题,但由于只是简单截图了相关招聘数据做就吐槽招聘数据少。可能数据维度太少、没做横向对比,导致看上去不太不太科学、客观。但该篇文章的结论是否有问题呢? 公司增、税收增、人员不增的说法是否站得住脚,这篇文章将主流招聘网站的数据全部
阅读全文
摘要:MongoSpark为入口类,调用MongoSpark.load,该方法返回一个MongoRDD类对象,Mongo Spark Connector框架本质上就是一个大号的自定义RDD,加了些自定义配置、适配几种分区器规则、Sql的数据封装等等,个人认为相对核心的也就是分区器的规则实现;弄清楚了其分析
阅读全文
摘要: Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理; 流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;
阅读全文
摘要:本篇文章就要根据源码分析 SparkContext 所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来 简单介绍介绍SparkContext,注释的第一句话就是
阅读全文
摘要:矩阵为线性代数中的重点,而矩阵运算就是矩阵的基础,这篇文章主要是回顾矩阵运算; 矩阵基本运算:加法、减法、数乘、乘法、转置等 矩阵加法 矩阵加法规则为每个矩阵对应的元素相加,当且仅当两个矩阵具有相同的维数矩阵加法才有定义; 1、加法规则 示例 矩阵减法 矩阵减法规则与矩阵加法相同也是对应元素上的数做
阅读全文
摘要:Spark作为分布式的大数据处理框架必然或涉及到大量的作业调度,如果能够理解Spark中的调度对我们编写或优化Spark程序都是有很大帮助的; 在Spark中存在 转换操作(Transformation Operation) 与 行动操作(Action Operation) 两种;而转换操作只是会从
阅读全文
摘要:Spark执行不少操作时都依赖于 闭包函数 的调用,此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作: 1、驱动程序使将闭包中使用变量封装成对象,驱动程序序列化对象,传给worker节点任务; 2、worker节点任务接收到对象,执行闭包
阅读全文
摘要:编译打包 Spark支持Maven与SBT两种编译工具,这里使用了Maven进行编译打包; 在执行make distribution脚本时它会检查本地是否已经存在Maven还有当前Spark所依赖的Scala版本,如果不存在它会自动帮你下载到build目录中并解压使用;Maven源最好...
阅读全文
摘要:Spark中最核心的概念为 RDD(Resilient Distributed DataSets) 中文为: 弹性分布式数据集 ,RDD为对分布式内存对象的 抽象它表示一个 被分区不可变 且能 并行操作 的数据集;RDD为可序列化的、可缓存到内存对RDD进行操作过后还可以存到内存中,下次操作直接把内...
阅读全文
摘要:上节中简单的介绍了 Spark 的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署; Spark运行模式 在 Spark 中存在着多种运行模式,可使用本地模式运行、可使用伪分布式模式运行、使用分布式模式也存在多种模式如:S...
阅读全文
摘要:何为Scala物 Scala 为基于JVM虚拟机中的面向对象与 函数式编程 思想并且完全兼容Java的混合编程语言,可以是Scala与Java是同根同源的,既然Scala与JAVA都是基于JVM之上的编程语言那么Scala的特色又在哪呢 Scala最大的特色就是他是支持函数式编程的,函数式...
阅读全文
摘要:背景 目前按照大数据处理类型来分大致可以分为:批量数据处理、交互式数据查询、实时数据流处理,这三种数据处理方式对应的业务场景也都不一样; 关注大数据处理的应该都知道Hadoop,而Hadoop的核心为 HDFS 与 MapReduce ,HDFS分布式文件系统在Hadop中是用来存储数...
阅读全文
浙公网安备 33010602011771号