随笔分类 - spark
摘要:Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行,并在后续版本
阅读全文
摘要:转自:https://www.cnblogs.com/LXL616/p/11165826.html 非常好的文章,感谢作者的分享,向大神学习下。 在工厂环境下,Spark 集群的部署方式一般为 YARN-Cluster 模式,之后的内核 分析内容中我们默认集群的部署方式为 YARN-Cluster
阅读全文
摘要:转载:https://blog.csdn.net/autfish/article/details/52513465 工作中多人使用版本控制软件协作开发,常见的应用场景归纳如下: 假设小组中有两个人,组长小张,组员小袁 场景一:小张创建项目并提交到远程Git仓库 场景二:小袁从远程Git仓库上获取项目
阅读全文
摘要:linux平台下安装jdk rpm安装 1.官网下载rpm包 官网rpm下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.rpm安装 rpm -ivh jdk-8u1
阅读全文
摘要:.file->new -> project 2.选择Maven,添加模板创建项目 3.填写Groupid、ArtifactId信息。GroupId:com.公司名称/个人名称.项目名;ArtifactId:子项目名称 4.选择本地安装的maven和setting.xml文件 5.工程名称和路径 6.
阅读全文
摘要:Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性
阅读全文
摘要:一、基于idea插件方式 1.file->Project Structure 2.Artifacts->JAR->From modules with dependencies... 3.删除多余的jar包,否则可能运行时会报错 4.点击 ok 5.Build->Build Aftifacts...
阅读全文
摘要:在sparkstreaming中对窗口范围进行reduce主要有下面四个方法, 其他方法都是直接或者间接调用下面的方法来获取结果 对非(K,V)形式的RDD 窗口化reduce: 对(K,V)形式RDD 按Key窗口化reduce: 从方法上面来看, 理解和使用#1的方法确实非常简单, 但是在大数据
阅读全文
摘要:一,创建RDD 最简单的方式就是把程序中一个已有的集合传给SparkContext 的parallelize()方法: 二、更常用的方式是从外部存储中读取数据来创建RDD:
阅读全文
摘要:转自:https://www.shiyanlou.com/courses/543/labs/1835/document https://www.shiyanlou.com/courses/536/labs/1818/document 一、从 RDD 创建 DataFrame: Step 3:定义 c
阅读全文

浙公网安备 33010602011771号