随笔分类 - Spark
摘要:[TOC] 前言 在Spark的使用中,性能的调优配置过程中,查阅了很多资料,本文的思路是从spark最细节的本质,即核心的数据结构RDD出发,到整个Spark集群宏观的调度过程做一个整理归纳,从微观到宏观两方面总结,方便自己在调优过程中找寻问题,理清思路,也加深自己对于分布式程序开发的理解。(有任
阅读全文
摘要:[TOC] 前言 "Spark踩坑记——初试" "Spark踩坑记——数据库(Hbase+Mysql)" "Spark踩坑记——Spark Streaming+kafka应用及调优" 在前面总结的几篇spark踩坑博文中,我总结了自己在使用spark过程当中踩过的一些坑和经验。我们知道Spark是多
阅读全文
摘要:[TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafk
阅读全文
摘要:[TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark
阅读全文
摘要:[TOC] Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补
阅读全文

浙公网安备 33010602011771号