摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 阅读全文
posted @ 2016-07-01 18:56 XGogo 阅读(1160) 评论(0) 推荐(1)
摘要: 背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa 阅读全文
posted @ 2016-07-01 17:49 XGogo 阅读(520) 评论(0) 推荐(0)
摘要: 原文地址:http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展。 什么是Spark Stre 阅读全文
posted @ 2016-07-01 10:52 XGogo 阅读(722) 评论(0) 推荐(0)
摘要: RowFilter用于过滤row key import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文
posted @ 2016-07-01 09:30 XGogo 阅读(16764) 评论(0) 推荐(0)
摘要: 本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。 Key设计 HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设 阅读全文
posted @ 2016-07-01 09:15 XGogo 阅读(1608) 评论(0) 推荐(0)