柚子=_=

2017年10月24日

SparkStreaming Kafka基本概念

摘要： 1.Storm 和 SparkStreaming区别Storm 纯实时的流式处理，来一条数据就立即进行处理SparkStreaming微批处理，每次处理的都是一批非常小的数... 阅读全文

posted @ 2017-10-24 09:48 柚子=_= 阅读(331) 评论(0) 推荐(0)

2017年10月23日

最全spark基础知识

摘要：《倾情大奉送--Spark入门实战系列》 1、 Spark运行架构1.1 术语定义lApplication：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Sp... 阅读全文

posted @ 2017-10-23 20:14 柚子=_= 阅读(390) 评论(0) 推荐(0)

spark性能优化高级篇

摘要： Spark性能调优高级篇分类：spark平台学习（2）目录(?)[+]前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇... 阅读全文

posted @ 2017-10-23 19:33 柚子=_= 阅读(424) 评论(0) 推荐(0)

2017年10月21日

spark SQL上踩过的坑

摘要：那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾，spark的设计架构并不是为了高并发请求而设计的，我们尝试在网络条件不好的集群下，进行100并发的查询，在压测3天后发现了内存... 阅读全文

posted @ 2017-10-21 19:58 柚子=_= 阅读(1375) 评论(0) 推荐(0)

spark-sql调优

摘要：性能优化参数在spark中，Spark SQL性能调优只要是通过下面的一些选项进行优化的：1 spark.sql.codegen 默认值为false，当它设置为true时，Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢？它可以提高大型查询的性能，但是如果进行... 阅读全文

posted @ 2017-10-21 19:46 柚子=_= 阅读(1557) 评论(0) 推荐(0)

Spark Sql性能测试

摘要： Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢，而不是失败，因为还有磁盘可用错误日志：Task：java.io.IOException: Filesystem... 阅读全文

posted @ 2017-10-21 19:39 柚子=_= 阅读(349) 评论(0) 推荐(0)

机器学习与深度学习资料

摘要：机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林... 阅读全文

posted @ 2017-10-21 19:18 柚子=_= 阅读(495) 评论(0) 推荐(0)

2017年10月18日

JVM调优实战

摘要： java application项目（非web项目）改进前：-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CM... 阅读全文

posted @ 2017-10-18 19:36 柚子=_= 阅读(135) 评论(0) 推荐(0)

Spark on Yarn下JVM的OOM问题及解决方式

摘要： Spark JVM的OOM和Stack Overflow问题1、Spark on Yarn下JVM的OOM问题及解决方式 2、Spark中Driver的Stack Overflow的问题及解决方式Spark on... 阅读全文

posted @ 2017-10-18 17:59 柚子=_= 阅读(419) 评论(0) 推荐(0)

Spark SQL UDF和UDAF示例

摘要： Spark SQL UDF和UDAF/** * scala代码 */package com.tom.spark.sqlimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFu... 阅读全文

posted @ 2017-10-18 17:47 柚子=_= 阅读(176) 评论(0) 推荐(0)

公告