Spark - 随笔分类 - xlturing

Spark踩坑记——从RDD看集群调度

摘要：[TOC] 前言在Spark的使用中，性能的调优配置过程中，查阅了很多资料，本文的思路是从spark最细节的本质，即核心的数据结构RDD出发，到整个Spark集群宏观的调度过程做一个整理归纳，从微观到宏观两方面总结，方便自己在调优过程中找寻问题，理清思路，也加深自己对于分布式程序开发的理解。（有任阅读全文

posted @ 2017-05-27 18:19 xlturing 阅读(4245) 评论(0) 推荐(0)

Spark踩坑记——共享变量

摘要：[TOC] 前言 "Spark踩坑记——初试" "Spark踩坑记——数据库（Hbase+Mysql）" "Spark踩坑记——Spark Streaming+kafka应用及调优" 在前面总结的几篇spark踩坑博文中，我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多阅读全文

posted @ 2017-03-31 19:04 xlturing 阅读(8126) 评论(1) 推荐(0)

Spark踩坑记——Spark Streaming+Kafka

摘要：[TOC] 前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafk 阅读全文

posted @ 2017-01-03 21:35 xlturing 阅读(91500) 评论(13) 推荐(9)

Spark踩坑记——数据库（Hbase+Mysql）

摘要：[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数据流处理时，我需要将计算好的数据更新到hbase和mysql中，所以本文对spark 阅读全文

posted @ 2016-07-14 11:31 xlturing 阅读(23941) 评论(6) 推荐(6)

Spark踩坑记——初试

摘要：[TOC] Spark简介整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。 Spark在整个大数据系统中处于中间偏上层的地位，如下图，对hadoop起到了补阅读全文

posted @ 2016-06-13 22:38 xlturing 阅读(3071) 评论(1) 推荐(0)

xlturing

梦如茶，一个程序员的逐梦之旅 - 转载请注明 http://www.cnblogs.com/xlturing/

随笔分类 - Spark

公告