摘要: 实验环境: zookeeper-3.4.6 Spark:1.6.0 简介: 本篇博客将从以下几点组织文章: 一:Spark 构建高可用HA架构 二:动手实战构建高可用HA 三:提交程序测试HA一:Spark 构建... 阅读全文
posted @ 2017-10-24 10:16 柚子=_= 阅读(329) 评论(0) 推荐(0)
摘要: 1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理,来一条数据就立即进行处理SparkStreaming微批处理,每次处理的都是一批非常小的数... 阅读全文
posted @ 2017-10-24 09:48 柚子=_= 阅读(329) 评论(0) 推荐(0)
摘要: 《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Sp... 阅读全文
posted @ 2017-10-23 20:14 柚子=_= 阅读(389) 评论(0) 推荐(0)
摘要: Spark性能调优高级篇 分类:spark平台学习(2) 目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇... 阅读全文
posted @ 2017-10-23 19:33 柚子=_= 阅读(423) 评论(0) 推荐(0)
摘要: 那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存... 阅读全文
posted @ 2017-10-21 19:58 柚子=_= 阅读(1374) 评论(0) 推荐(0)
摘要: 性能优化参数 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的:1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行... 阅读全文
posted @ 2017-10-21 19:46 柚子=_= 阅读(1514) 评论(0) 推荐(0)
摘要: Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用错误日志:Task:java.io.IOException: Filesystem... 阅读全文
posted @ 2017-10-21 19:39 柚子=_= 阅读(349) 评论(0) 推荐(0)
摘要: 机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林... 阅读全文
posted @ 2017-10-21 19:18 柚子=_= 阅读(493) 评论(0) 推荐(0)
摘要: java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM... 阅读全文
posted @ 2017-10-18 19:36 柚子=_= 阅读(134) 评论(0) 推荐(0)
摘要: Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on... 阅读全文
posted @ 2017-10-18 17:59 柚子=_= 阅读(418) 评论(0) 推荐(0)