会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
25
26
27
28
29
30
31
32
33
···
45
下一页
2018年1月7日
Spark2.x AFTSurvivalRegression算法
摘要: Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失
阅读全文
posted @ 2018-01-07 16:28 大葱拌豆腐
阅读(515)
评论(0)
推荐(0)
2018年1月6日
Spark History Server配置使用
摘要: 1、Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,这个服务是伴随Spark应用程序的运行周期的,也就是当应用程序运行完成后,将无法查看应用程序的历史记
阅读全文
posted @ 2018-01-06 22:30 大葱拌豆腐
阅读(447)
评论(0)
推荐(0)
2017年12月28日
Apache Spark 2.0三种API的传说:RDD、DataFrame和Dataset
摘要: Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单、易用的APIs,支持跨多种语言(比如:Scala、Java、Python和R)来操作大数据。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自
阅读全文
posted @ 2017-12-28 15:04 大葱拌豆腐
阅读(2555)
评论(1)
推荐(0)
2017年12月17日
Spark如何写入HBase/Redis/MySQL/Kafka
摘要: 一些概念 一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用于Partition的线程 问题 Task 里如何使用Kafka Producer 将数据发送到Ka
阅读全文
posted @ 2017-12-17 13:40 大葱拌豆腐
阅读(1577)
评论(0)
推荐(1)
2017年12月16日
Spark源码分析之Sort-Based Shuffle读写流程
摘要: 一 、概述 我们知道Spark Shuffle机制总共有三种: 1.未优化的Hash Shuffle:每一个ShuffleMapTask都会为每一个ReducerTask创建一个单独的文件,总的文件数是S * R,不仅文件数量很多,造成频繁的磁盘和网络I/O,而且内存负担也很大,GC频繁,经常出现O
阅读全文
posted @ 2017-12-16 22:33 大葱拌豆腐
阅读(2882)
评论(1)
推荐(0)
2017年12月11日
浅谈Spark2.x中的Structured Streaming
摘要: 在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application 首先,也是最重要的,在2.x中,提出了一个叫做conti
阅读全文
posted @ 2017-12-11 19:40 大葱拌豆腐
阅读(325)
评论(0)
推荐(0)
2017年12月4日
Spark应用提交
摘要: 在 Spark 的 bin 目录中的 spark-submit 脚本用与在集群上启动应用程序。它可以通过一个统一的接口使用所有 Spark 支持的 Cluster Manager,所以您不需要专门的为每个 Cluster Manager 来配置您的应用程序。 在 Spark 的 bin 目录中的 s
阅读全文
posted @ 2017-12-04 20:34 大葱拌豆腐
阅读(282)
评论(0)
推荐(0)
集群模式概述
摘要: 组件 Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。 具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standl
阅读全文
posted @ 2017-12-04 20:12 大葱拌豆腐
阅读(541)
评论(0)
推荐(0)
2017年11月28日
IDEA中打包Spark项目提示Error:(16, 48) java: -source 1.5 中不支持 lambda 表达式
摘要: 在idea中新建了一Spark的项目,在做项目的编译打包的时候,提示如下错误信息: 解决方法是: 第一步: File --> Project Stucture 选择项目设置Lanugage level, 如下图所示 第二步: File --> Settings --> Compiler --> Ja
阅读全文
posted @ 2017-11-28 13:36 大葱拌豆腐
阅读(444)
评论(0)
推荐(0)
2017年11月16日
Spark应用日志级别设置
摘要: 一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件 由上图可知,Spark-c
阅读全文
posted @ 2017-11-16 10:25 大葱拌豆腐
阅读(1190)
评论(0)
推荐(0)
上一页
1
···
25
26
27
28
29
30
31
32
33
···
45
下一页
公告