摘要:
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 阅读全文
posted @ 2016-07-01 18:56
XGogo
阅读(1160)
评论(0)
推荐(1)
摘要:
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa 阅读全文
posted @ 2016-07-01 17:49
XGogo
阅读(520)
评论(0)
推荐(0)
摘要:
原文地址:http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming +Hbase为列,Spark Streaming专为流式数据处理,对Spark核心API进行了相应的扩展。 什么是Spark Stre 阅读全文
posted @ 2016-07-01 10:52
XGogo
阅读(722)
评论(0)
推荐(0)
摘要:
RowFilter用于过滤row key import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文
posted @ 2016-07-01 09:30
XGogo
阅读(16764)
评论(0)
推荐(0)
摘要:
本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。 Key设计 HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设 阅读全文
posted @ 2016-07-01 09:15
XGogo
阅读(1608)
评论(0)
推荐(0)

浙公网安备 33010602011771号