随笔分类 -  Spark

摘要:原文链接:GraphX中Pregel单源点最短路径 GraphX中的单源点最短路径例子,使用的是类Pregel的方式。 核心部分是三个函数: 1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性 2.节点发送消息的函数 s 阅读全文
posted @ 2016-02-25 20:19 ~风轻云淡~ 阅读(1279) 评论(0) 推荐(0) 编辑
摘要:所构建的图如下:Scala程序代码如下:import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDDimport org.apac... 阅读全文
posted @ 2015-12-15 17:20 ~风轻云淡~ 阅读(3065) 评论(0) 推荐(0) 编辑
摘要:程序如下:import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS... 阅读全文
posted @ 2015-11-28 19:13 ~风轻云淡~ 阅读(5680) 评论(0) 推荐(0) 编辑
摘要:代码如下:import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS... 阅读全文
posted @ 2015-11-28 18:50 ~风轻云淡~ 阅读(2178) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark中加载本地(或者hdfs)文件以及SparkContext实例的textFile使用 默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径... 阅读全文
posted @ 2015-11-28 16:56 ~风轻云淡~ 阅读(3330) 评论(0) 推荐(0) 编辑
摘要:原文链接:flume学习(三):flume将log4j日志数据写入到hdfs在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下:[plain]view plaincopytier1.sources=source1tier1.channels=channel1tier... 阅读全文
posted @ 2015-11-19 10:26 ~风轻云淡~ 阅读(2578) 评论(0) 推荐(0) 编辑
摘要:原文链接:错误Name node is in safe mode的解决方法 将本地文件拷贝到hdfs上去,结果上错误:Name node is in safe mode这是因为在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许... 阅读全文
posted @ 2015-11-18 22:04 ~风轻云淡~ 阅读(811) 评论(0) 推荐(0) 编辑
摘要:原文链接:Hbase系统架构及数据结构HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosys... 阅读全文
posted @ 2015-11-15 19:57 ~风轻云淡~ 阅读(1950) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark Streaming:大规模流式数据处理的新贵摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。... 阅读全文
posted @ 2015-11-15 14:03 ~风轻云淡~ 阅读(494) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark源码分析:多种部署方式之间的区别与联系(1)从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN.....不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。 从代码中,我们可以得知其实... 阅读全文
posted @ 2015-11-13 20:19 ~风轻云淡~ 阅读(2132) 评论(0) 推荐(0) 编辑
摘要:原文链接:Storm和Spark Streaming框架对比 Storm和SparkStreaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。处理模型以及延迟 虽然两框架都提供了可扩展性(scalability)和可容错性(fault toleran... 阅读全文
posted @ 2015-11-13 16:37 ~风轻云淡~ 阅读(1253) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark RDD API扩展开发(1)Spark RDD API扩展开发(2):自定义RDD我们都知道,ApacheSpark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候... 阅读全文
posted @ 2015-11-13 16:20 ~风轻云淡~ 阅读(1519) 评论(0) 推荐(0) 编辑
摘要:原文链接:【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume:Flume是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多... 阅读全文
posted @ 2015-11-13 15:53 ~风轻云淡~ 阅读(720) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark Streaming中空batches处理的两种方法 SparkStreaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval),SparkStreaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD... 阅读全文
posted @ 2015-11-13 15:41 ~风轻云淡~ 阅读(2224) 评论(0) 推荐(0) 编辑
摘要:原文链接:在Spark中自定义Kryo序列化输入输出API在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继承java... 阅读全文
posted @ 2015-11-13 14:22 ~风轻云淡~ 阅读(2031) 评论(0) 推荐(0) 编辑
摘要:原文链接:Spark Streaming性能调优详解 SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然... 阅读全文
posted @ 2015-11-13 11:47 ~风轻云淡~ 阅读(11522) 评论(0) 推荐(1) 编辑
摘要:原文链接:Spark应用程序运行的日志存在哪里在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。 Spark日志确切的存放路径和部署模式相关: (1)、如果是Spark Standalone模式,我们可以直... 阅读全文
posted @ 2015-11-13 11:20 ~风轻云淡~ 阅读(18315) 评论(0) 推荐(1) 编辑
摘要:原文链接:在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey;另外一种方式使用groupByKey,代码如下:01#User:过往记忆02#Date:2015-05... 阅读全文
posted @ 2015-11-13 11:07 ~风轻云淡~ 阅读(1844) 评论(0) 推荐(0) 编辑
摘要:原文链接:使用Spark读写CSV格式文件CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记... 阅读全文
posted @ 2015-11-13 10:47 ~风轻云淡~ 阅读(38159) 评论(2) 推荐(0) 编辑
摘要:Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中,这将导致那些基于偏移量的Kafka集群监控软件(比如:Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等)失效。本文就是基于为了解决这个问题,使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。 阅读全文
posted @ 2015-11-13 10:38 ~风轻云淡~ 阅读(7665) 评论(0) 推荐(0) 编辑