会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
上海小墨子
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
4
5
6
7
8
9
下一页
2018年12月4日
IDEA运行异常java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function
摘要: 报错信息: 上面的类是在spark-core中,查看pom.xml 解决方法,下图中打钩: 原因是:IDEA默认下是不加载pom下的provided依赖的,而Eclipse是支持的。 可以参考:https://blog.csdn.net/lh11077/article/details/8014399
阅读全文
posted @ 2018-12-04 16:21 上海小墨子
阅读(8322)
评论(0)
推荐(1)
2018年12月3日
spark任务提交之SparkLauncher
摘要: 最近需要做一个UI,在UI上做一个可以提交的spark程序的功能; 1-zeppelin就是这样的一个工具,其内部也是比较繁琐的。有兴趣的可以了解下。 2-SparkLauncher,spark自带的类 linux下其基本用法: 运行结果: windows下运行: 如果linux能运行,那就安装wi
阅读全文
posted @ 2018-12-03 19:27 上海小墨子
阅读(8710)
评论(3)
推荐(0)
2018年11月30日
spark调优(二)-Apache Spark 内存管理详解
摘要: Apache Spark 内存管理详解 转载于:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html Spark 作为一个基于内存的分布式计算引擎
阅读全文
posted @ 2018-11-30 10:12 上海小墨子
阅读(438)
评论(0)
推荐(0)
2018年11月28日
spark调优(一)-开发调优,数据倾斜,shuffle调优
摘要: 主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle调优,面向的是对Spark的原理有较深
阅读全文
posted @ 2018-11-28 21:53 上海小墨子
阅读(590)
评论(0)
推荐(0)
spark内核源码深度剖析(1)--Spark内核架构深度剖析
摘要: spark任务运行原理 一:spark运行组件的介绍 如下图为分布式spark应用中的组件: 1 驱动器节点的任务: (1)-把用户程序转化为任务(多个物理服务器执行的单元); Driver进程首先构造SparkConf,接着创建SparkContext。SparkContext创建时,会构造DAG
阅读全文
posted @ 2018-11-28 21:22 上海小墨子
阅读(505)
评论(0)
推荐(0)
2018年11月24日
JVM钩子
摘要: 钩子是什么:是一种消息的拦截机制,可以拦截单个进程的消息(线程钩子),可以拦截所有进程的消息(系统钩子),并可以对拦截消息进行自动以处理。 钩子应用的情况:键盘打字时的显示,关闭线程池。 java自带的JVM钩子使用方法: Runtime.getRuntime().addShutdownHook(T
阅读全文
posted @ 2018-11-24 22:46 上海小墨子
阅读(1049)
评论(0)
推荐(0)
2018年11月16日
Intellij IDEA安装scala插件
摘要: 1- 安装scala插件 file -> setting -> plugins -> 搜索scala -> install 若果报错,需要首先下载安装包,然后Install plugin from disk...本地文件进行安装。 2- 安装scala file -> Project Structu
阅读全文
posted @ 2018-11-16 09:37 上海小墨子
阅读(1255)
评论(0)
推荐(0)
2018年11月14日
spark广播变量 和 累加器
摘要: 1 为什么使用广播变量 和 累加器 变量存在的问题:在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序,
阅读全文
posted @ 2018-11-14 10:25 上海小墨子
阅读(266)
评论(0)
推荐(0)
2018年11月13日
spark HA集群的分布式安装
摘要: 一:安装教程 修改配置文件 (1)spark.env.sh 配置参数说明: -Dspark.deploy.recoveryMode=ZOOKEEPER #说明整个集群状态是通过zookeeper来维护的,整个集群状态的恢复也是通过zookeeper来维护的。就是说用zookeeper做了spark的
阅读全文
posted @ 2018-11-13 19:33 上海小墨子
阅读(213)
评论(0)
推荐(0)
2018年11月9日
spark基本RDD方法(Java版)
摘要: spark基本RDD方法(Java版) 一:Transformations map:输入和输出条数一致; JavaRDD<Integer> mappedRDD = lines.map(s -> s.length()); filter:只保留返回true的数据; JavaRDD<String> map
阅读全文
posted @ 2018-11-09 19:05 上海小墨子
阅读(1752)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
下一页
公告