上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 45 下一页
摘要: Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 阅读全文
posted @ 2018-01-07 16:28 大葱拌豆腐 阅读(515) 评论(0) 推荐(0)
摘要: 1、Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,这个服务是伴随Spark应用程序的运行周期的,也就是当应用程序运行完成后,将无法查看应用程序的历史记 阅读全文
posted @ 2018-01-06 22:30 大葱拌豆腐 阅读(447) 评论(0) 推荐(0)
摘要: Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单、易用的APIs,支持跨多种语言(比如:Scala、Java、Python和R)来操作大数据。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自 阅读全文
posted @ 2017-12-28 15:04 大葱拌豆腐 阅读(2555) 评论(1) 推荐(0)
摘要: 一些概念 一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用于Partition的线程 问题 Task 里如何使用Kafka Producer 将数据发送到Ka 阅读全文
posted @ 2017-12-17 13:40 大葱拌豆腐 阅读(1577) 评论(0) 推荐(1)
摘要: 一 、概述 我们知道Spark Shuffle机制总共有三种: 1.未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数是S * R,不仅文件数量很多,造成频繁的磁盘和网络I/O,而且内存负担也很大,GC频繁,经常出现O 阅读全文
posted @ 2017-12-16 22:33 大葱拌豆腐 阅读(2882) 评论(1) 推荐(0)
摘要: 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application 首先,也是最重要的,在2.x中,提出了一个叫做conti 阅读全文
posted @ 2017-12-11 19:40 大葱拌豆腐 阅读(325) 评论(0) 推荐(0)
摘要: 在 Spark 的 bin 目录中的 spark-submit 脚本用与在集群上启动应用程序。它可以通过一个统一的接口使用所有 Spark 支持的 Cluster Manager,所以您不需要专门的为每个 Cluster Manager 来配置您的应用程序。 在 Spark 的 bin 目录中的 s 阅读全文
posted @ 2017-12-04 20:34 大葱拌豆腐 阅读(282) 评论(0) 推荐(0)
摘要: 组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standl 阅读全文
posted @ 2017-12-04 20:12 大葱拌豆腐 阅读(541) 评论(0) 推荐(0)
摘要: 在idea中新建了一Spark的项目,在做项目的编译打包的时候,提示如下错误信息: 解决方法是: 第一步: File --> Project Stucture 选择项目设置Lanugage level, 如下图所示 第二步: File --> Settings --> Compiler --> Ja 阅读全文
posted @ 2017-11-28 13:36 大葱拌豆腐 阅读(444) 评论(0) 推荐(0)
摘要: 一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件 由上图可知,Spark-c 阅读全文
posted @ 2017-11-16 10:25 大葱拌豆腐 阅读(1190) 评论(0) 推荐(0)
上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 45 下一页