上海小墨子

2018年12月4日

IDEA运行异常java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function

摘要：报错信息：上面的类是在spark-core中，查看pom.xml 解决方法，下图中打钩：原因是：IDEA默认下是不加载pom下的provided依赖的，而Eclipse是支持的。可以参考：https://blog.csdn.net/lh11077/article/details/8014399 阅读全文

posted @ 2018-12-04 16:21 上海小墨子阅读(8332) 评论(0) 推荐(1)

2018年12月3日

spark任务提交之SparkLauncher

摘要：最近需要做一个UI，在UI上做一个可以提交的spark程序的功能； 1-zeppelin就是这样的一个工具，其内部也是比较繁琐的。有兴趣的可以了解下。 2-SparkLauncher，spark自带的类 linux下其基本用法：运行结果： windows下运行：如果linux能运行，那就安装wi 阅读全文

posted @ 2018-12-03 19:27 上海小墨子阅读(8716) 评论(3) 推荐(0)

2018年11月30日

spark调优（二）-Apache Spark 内存管理详解

摘要： Apache Spark 内存管理详解转载于：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html Spark 作为一个基于内存的分布式计算引擎阅读全文

posted @ 2018-11-30 10:12 上海小墨子阅读(440) 评论(0) 推荐(0)

2018年11月28日

spark调优（一）-开发调优，数据倾斜，shuffle调优

摘要：主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优，主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案；shuffle调优，面向的是对Spark的原理有较深阅读全文

posted @ 2018-11-28 21:53 上海小墨子阅读(591) 评论(0) 推荐(0)

spark内核源码深度剖析（1）--Spark内核架构深度剖析

摘要： spark任务运行原理一：spark运行组件的介绍如下图为分布式spark应用中的组件： 1 驱动器节点的任务：（1）-把用户程序转化为任务（多个物理服务器执行的单元）； Driver进程首先构造SparkConf，接着创建SparkContext。SparkContext创建时，会构造DAG 阅读全文

posted @ 2018-11-28 21:22 上海小墨子阅读(506) 评论(0) 推荐(0)

2018年11月24日

JVM钩子

摘要：钩子是什么：是一种消息的拦截机制，可以拦截单个进程的消息（线程钩子），可以拦截所有进程的消息（系统钩子），并可以对拦截消息进行自动以处理。钩子应用的情况：键盘打字时的显示，关闭线程池。 java自带的JVM钩子使用方法： Runtime.getRuntime().addShutdownHook(T 阅读全文

posted @ 2018-11-24 22:46 上海小墨子阅读(1051) 评论(0) 推荐(0)

2018年11月16日

Intellij IDEA安装scala插件

摘要： 1- 安装scala插件 file -> setting -> plugins -> 搜索scala -> install 若果报错，需要首先下载安装包，然后Install plugin from disk...本地文件进行安装。 2- 安装scala file -> Project Structu 阅读全文

posted @ 2018-11-16 09:37 上海小墨子阅读(1262) 评论(0) 推荐(0)

2018年11月14日

spark广播变量和累加器

摘要： 1 为什么使用广播变量和累加器变量存在的问题：在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序，阅读全文

posted @ 2018-11-14 10:25 上海小墨子阅读(269) 评论(0) 推荐(0)

2018年11月13日

spark HA集群的分布式安装

摘要：一：安装教程修改配置文件（1）spark.env.sh 配置参数说明： -Dspark.deploy.recoveryMode=ZOOKEEPER #说明整个集群状态是通过zookeeper来维护的，整个集群状态的恢复也是通过zookeeper来维护的。就是说用zookeeper做了spark的阅读全文

posted @ 2018-11-13 19:33 上海小墨子阅读(215) 评论(0) 推荐(0)

2018年11月9日

spark基本RDD方法（Java版）

摘要： spark基本RDD方法（Java版）一：Transformations map:输入和输出条数一致； JavaRDD<Integer> mappedRDD = lines.map(s -> s.length()); filter:只保留返回true的数据； JavaRDD<String> map 阅读全文

posted @ 2018-11-09 19:05 上海小墨子阅读(1755) 评论(0) 推荐(0)

公告