Spark - 随笔分类 - ~风轻云淡~

GraphX中Pregel单源点最短路径（转）

摘要：原文链接：GraphX中Pregel单源点最短路径 GraphX中的单源点最短路径例子，使用的是类Pregel的方式。核心部分是三个函数： 1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD （节点id，节点属性，消息） => 节点属性 2.节点发送消息的函数 s 阅读全文

posted @ 2016-02-25 20:19 ~风轻云淡~ 阅读(1288) 评论(0) 推荐(0) 编辑

Spark GraphX图处理编程实例

摘要：所构建的图如下：Scala程序代码如下：import org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we will also need RDDimport org.apac... 阅读全文

posted @ 2015-12-15 17:20 ~风轻云淡~ 阅读(3066) 评论(0) 推荐(0) 编辑

Spark向HDFS中存储数据

摘要：程序如下：import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS... 阅读全文

posted @ 2015-11-28 19:13 ~风轻云淡~ 阅读(5692) 评论(0) 推荐(0) 编辑

Spark从HDFS上读取JSON数据

摘要：代码如下：import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS... 阅读全文

posted @ 2015-11-28 18:50 ~风轻云淡~ 阅读(2192) 评论(0) 推荐(0) 编辑

Spark中加载本地（或者hdfs）文件以及SparkContext实例的textFile使用

摘要：原文链接：Spark中加载本地（或者hdfs）文件以及SparkContext实例的textFile使用默认是从hdfs读取文件，也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读本地文件读取 sc.textFile("路径").在路径... 阅读全文

posted @ 2015-11-28 16:56 ~风轻云淡~ 阅读(3366) 评论(0) 推荐(0) 编辑

flume学习（三）：flume将log4j日志数据写入到hdfs（转）

摘要：原文链接：flume学习（三）：flume将log4j日志数据写入到hdfs在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中。配置文件如下：[plain]view plaincopytier1.sources=source1tier1.channels=channel1tier... 阅读全文

posted @ 2015-11-19 10:26 ~风轻云淡~ 阅读(2581) 评论(0) 推荐(0) 编辑

错误Name node is in safe mode的解决方法（转）

摘要：原文链接：错误Name node is in safe mode的解决方法将本地文件拷贝到hdfs上去，结果上错误：Name node is in safe mode这是因为在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许... 阅读全文

posted @ 2015-11-18 22:04 ~风轻云淡~ 阅读(823) 评论(0) 推荐(0) 编辑

HBase系统架构及数据结构（转）

摘要：原文链接：Hbase系统架构及数据结构HBase中的表一般有这样的特点：1 大：一个表可以有上亿行，上百万列2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosys... 阅读全文

posted @ 2015-11-15 19:57 ~风轻云淡~ 阅读(1957) 评论(0) 推荐(0) 编辑

Spark Streaming：大规模流式数据处理的新贵（转）

摘要：原文链接：Spark Streaming：大规模流式数据处理的新贵摘要：Spark Streaming是大规模流式数据处理的新贵，将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型，并结合实践对其核心技术进行了深入的剖析，给出了具体的应用场景及优化方案。... 阅读全文

posted @ 2015-11-15 14:03 ~风轻云淡~ 阅读(496) 评论(0) 推荐(0) 编辑

Spark源码分析：多种部署方式之间的区别与联系（转）

摘要：原文链接：Spark源码分析：多种部署方式之间的区别与联系(1)从官方的文档我们可以知道，Spark的部署方式有很多种：local、Standalone、Mesos、YARN.....不同部署方式的后台处理进程是不一样的，但是如果我们从代码的角度来看，其实流程都差不多。从代码中，我们可以得知其实... 阅读全文

posted @ 2015-11-13 20:19 ~风轻云淡~ 阅读(2134) 评论(0) 推荐(0) 编辑

Storm和Spark Streaming框架对比（转）

摘要：原文链接：Storm和Spark Streaming框架对比　Storm和SparkStreaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的，正如你将要在下文看到的。处理模型以及延迟虽然两框架都提供了可扩展性(scalability)和可容错性(fault toleran... 阅读全文

posted @ 2015-11-13 16:37 ~风轻云淡~ 阅读(1253) 评论(0) 推荐(0) 编辑

Spark RDD API扩展开发

摘要：原文链接：Spark RDD API扩展开发(1)Spark RDD API扩展开发(2):自定义RDD我们都知道，ApacheSpark内置了很多操作数据的API。但是很多时候，当我们在现实中开发应用程序的时候，我们需要解决现实中遇到的问题，而这些问题可能在Spark中没有相应的API提供，这时候... 阅读全文

posted @ 2015-11-13 16:20 ~风轻云淡~ 阅读(1528) 评论(0) 推荐(0) 编辑

【采集层】Kafka 与 Flume 如何选择（转）

摘要：原文链接：【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多... 阅读全文

posted @ 2015-11-13 15:53 ~风轻云淡~ 阅读(721) 评论(0) 推荐(0) 编辑

Spark Streaming中空batches处理的两种方法（转）

摘要：原文链接：Spark Streaming中空batches处理的两种方法　SparkStreaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval)，SparkStreaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD... 阅读全文

posted @ 2015-11-13 15:41 ~风轻云淡~ 阅读(2224) 评论(0) 推荐(0) 编辑

在Spark中自定义Kryo序列化输入输出API（转）

摘要：原文链接：在Spark中自定义Kryo序列化输入输出API在Spark中内置支持两种系列化格式：（1）、Java serialization；（2）、Kryo serialization。在默认情况下，Spark使用的是Java的ObjectOutputStream系列化框架，它支持所有继承java... 阅读全文

posted @ 2015-11-13 14:22 ~风轻云淡~ 阅读(2038) 评论(0) 推荐(0) 编辑

Spark Streaming性能调优详解（转）

摘要：原文链接：Spark Streaming性能调优详解　SparkStreaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然... 阅读全文

posted @ 2015-11-13 11:47 ~风轻云淡~ 阅读(11530) 评论(0) 推荐(1) 编辑

Spark应用程序运行的日志存在哪里（转）

摘要：原文链接：Spark应用程序运行的日志存在哪里在很多情况下，我们需要查看driver和executors在运行Spark应用程序时候产生的日志，这些日志对于我们调试和查找问题是很重要的。 Spark日志确切的存放路径和部署模式相关：（1）、如果是Spark Standalone模式，我们可以直... 阅读全文

posted @ 2015-11-13 11:20 ~风轻云淡~ 阅读(18422) 评论(0) 推荐(1) 编辑

在Spark中尽量少使用GroupByKey函数（转）

摘要：原文链接：在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用reduceByKey；另外一种方式使用groupByKey，代码如下：01#User:过往记忆02#Date:2015-05... 阅读全文

posted @ 2015-11-13 11:07 ~风轻云淡~ 阅读(1847) 评论(0) 推荐(0) 编辑

使用Spark读写CSV格式文件（转）

摘要：原文链接：使用Spark读写CSV格式文件CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记... 阅读全文

posted @ 2015-11-13 10:47 ~风轻云淡~ 阅读(38238) 评论(2) 推荐(0) 编辑

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

摘要：Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，这将导致那些基于偏移量的Kafka集群监控软件（比如：Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等）失效。本文就是基于为了解决这个问题，使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。阅读全文

posted @ 2015-11-13 10:38 ~风轻云淡~ 阅读(7668) 评论(0) 推荐(0) 编辑

随笔分类 - Spark

公告